当前位置: 首页 > news >正文

在网上卖东西怎么找货源免费seo视频教程

在网上卖东西怎么找货源,免费seo视频教程,免费公司起名字大全,wordpress本地网站上传Xpath 入门教程 在编写爬虫程序的过程中提取信息是非常重要的环节,但是有时使用正则表达式无法匹配到想要的信息,或者书写起来非常麻烦,此时就需要用另外一种数据解析方法,也就是本节要介绍的 Xpath 表达式。 Xpath表达式 XPath…

Xpath 入门教程

在这里插入图片描述
在编写爬虫程序的过程中提取信息是非常重要的环节,但是有时使用正则表达式无法匹配到想要的信息,或者书写起来非常麻烦,此时就需要用另外一种数据解析方法,也就是本节要介绍的 Xpath 表达式。

Xpath表达式

XPath(全称:XML Path Language)即 XML 路径语言,它是一门在 XML 文档中查找信息的语言,最初被用来搜寻 XML 文档,同时它也适用于搜索 HTML 文档。因此,在爬虫过程中可以使用 XPath 来提取相应的数据。

提示:XML 是一种遵守 W3C 标椎的标记语言,类似于 HTML,但两者的设计目的是不同,XML 通常被用来传输和存储数据,而 HTML 常用来显示数据。

您可以将 Xpath 理解为在XML/HTML文档中检索、匹配元素节点的工具。

Xpath 使用路径表达式来选取XML/HTML文档中的节点或者节点集。Xpath 的功能十分强大,它除了提供了简洁的路径表达式外,还提供了100 多个内建函数,包括了处理字符串、数值、日期以及时间的函数。因此 Xpath 路径表达式几乎可以匹配所有的元素节点。

Python 第三方解析库 lxml 对 Xpath 路径表达式提供了良好的支持,能够解析 XML 与 HTML 文档。

Xpath节点

XPath 提供了多种类型的节点,常用的节点有:元素、属性、文本、注释以及文档节点。如下所示:

<?xml version="1.0" encoding="utf-8"?><website><site>  <title lang="zh-CN">website name</title>  <name>编程帮</name>  <year>2010</year>  <address>www.biancheng.net</address></site></website>

上面的 XML 文档中的节点例子:

<website></website> (文档节点)
<name></name> (元素节点)
lang="zh-CN" (属性节点) 

节点关系

XML 文档的节点关系和 HTML 文档相似,同样有父、子、同代、先辈、后代节点。如下所示:

<?xml version="1.0" encoding="utf-8"?><website><site>  <title lang="zh-CN">website name</title>  <name>编程帮</name>  <year>2010</year>  <address>www.biancheng.net</address></site></website>

上述示例分析后,会得到如下结果:

title name year address 都是 site 的子节点
site 是 title name year address  父节点
title name year address  属于同代节点
title 元素的先辈节点是 site website
website 的后代节点是 site title name year address

Xpath基本语法

1) 基本语法使用

Xpath 使用路径表达式在文档中选取节点,下表列出了常用的表达式规则:

表达式描述
node_name选取此节点的所有子节点。
/绝对路径匹配,从根节点选取。
//相对路径匹配,从所有节点中查找当前选择的节点,包括子节点和后代节点,其第一个 / 表示根节点。
.选取当前节点。
选取当前节点的父节点。
@选取属性值,通过属性值选取数据。常用元素属性有 @id 、@name、@type、@class、@tittle、@href。

下面以下述代码为例讲解 Xpath 表达式的基本应用,代码如下所示:

<ul class="BookList">  <li class="book1" id="book_01" href="http://www.biancheng.net/">        <p class="name">c语言小白变怪兽</p>        <p class="model">纸质书</p>        <p class="price">80元</p>        <p class="color">红蓝色封装</p>    </li>      <li class="book2" id="book_02" href="http://www.biancheng.net/">        <p class="name">Python入门到精通</p>        <p class="model">电子书</p>        <p class="price">45元</p>        <p class="color">蓝绿色封装</p>    </li></ul>

路径表达式以及相应的匹配内容如下:

xpath表达式://li匹配内容:
c语言小白变怪兽
纸质书
80元
红蓝色封装Python入门到精通
电子书
45元
蓝绿色封装xpath表达式://li/p[@class="name"]
匹配内容:
c语言小白变怪兽
Python入门到精通xpath表达式://li/p[@class="model"]
匹配内容:
纸质书
电子书xpath表达式://ul/li/@href
匹配内容:
http://www.biancheng.net/
http://www.biancheng.net/xpath表达式://ul/li
匹配内容:
c语言小白变怪兽
纸质书
80元
红蓝色封装Python入门到精通
电子书
45元
蓝绿色封装

注意:当需要查找某个特定的节点或者选取节点中包含的指定值时需要使用[]方括号。如下所示:

xpath表达式://ul/li[@class="book2"]/p[@class="price"]
匹配结果:45元

2) xpath通配符

Xpath 表达式的通配符可以用来选取未知的节点元素,基本语法如下:

通配符描述说明
*匹配任意元素节点
@*匹配任意属性节点
node()匹配任意类型的节点

示例如下:

xpath表达式://li/*匹配内容:
c语言小白变怪兽
纸质书
80元
红蓝色封装
Python入门到精通
电子书
45元
蓝绿色封装

3) 多路径匹配

多个 Xpath 路径表达式可以同时使用,其语法如下:

xpath表达式1 | xpath表达式2 | xpath表达式3

示例应用:

表达式://ul/li[@class="book2"]/p[@class="price"]|//ul/li/@href匹配内容:
45元
http://www.biancheng.net/
http://www.biancheng.net/

Xpath内建函数

Xpath 提供 100 多个内建函数,这些函数给我们提供了很多便利,比如实现文本匹配、模糊匹配、以及位置匹配等,下面介绍几个常用的内建函数。

函数名称xpath表达式示例示例说明
text()./text()文本匹配,表示值取当前节点中的文本内容。
contains()//div[contains(@id,‘stu’)]模糊匹配,表示选择 id 中包含“stu”的所有 div 节点。
last()//*[@class=‘web’][last()]位置匹配,表示选择@class='web’的最后一个节点。
position()//*[@class=‘site’][position()<=2]位置匹配,表示选择@class='site’的前两个节点。
start-with()“//input[start-with(@id,‘st’)]”匹配 id 以 st 开头的元素。
ends-with()“//input[ends-with(@id,‘st’)]”匹配 id 以 st 结尾的元素。
concat(string1,string2)concat(‘C语言中文网’,.//*[@class=‘stie’]/@href)C语言中文与标签类别属性为"stie"的 href 地址做拼接。

想要了解更多关于 Xpath 的知识可访问官方网站:https://www.w3.org/TR/xpath/


文章转载自:
http://dinncoencumbrancer.wbqt.cn
http://dinncodominion.wbqt.cn
http://dinncofameuse.wbqt.cn
http://dinncocrustose.wbqt.cn
http://dinncoaffection.wbqt.cn
http://dinncoundoubled.wbqt.cn
http://dinncocruciate.wbqt.cn
http://dinncorosace.wbqt.cn
http://dinncobonism.wbqt.cn
http://dinncosprinter.wbqt.cn
http://dinncoerrancy.wbqt.cn
http://dinncomazdoor.wbqt.cn
http://dinncoimmanence.wbqt.cn
http://dinnconeanic.wbqt.cn
http://dinncotergiversate.wbqt.cn
http://dinncoautonomist.wbqt.cn
http://dinncobailment.wbqt.cn
http://dinncomoxa.wbqt.cn
http://dinncodotter.wbqt.cn
http://dinncojerkin.wbqt.cn
http://dinncocrassilingual.wbqt.cn
http://dinncogiber.wbqt.cn
http://dinnconumberless.wbqt.cn
http://dinncofishable.wbqt.cn
http://dinncoblighted.wbqt.cn
http://dinncophotocurrent.wbqt.cn
http://dinncoorthoepical.wbqt.cn
http://dinncoanecdotalist.wbqt.cn
http://dinncoimpicture.wbqt.cn
http://dinncovegas.wbqt.cn
http://dinncolithify.wbqt.cn
http://dinncolifetime.wbqt.cn
http://dinncosha.wbqt.cn
http://dinncohierodulic.wbqt.cn
http://dinncobreezee.wbqt.cn
http://dinncodensometer.wbqt.cn
http://dinncosemiannular.wbqt.cn
http://dinncofunny.wbqt.cn
http://dinncoquadraminium.wbqt.cn
http://dinncosubagency.wbqt.cn
http://dinncosemiskilled.wbqt.cn
http://dinncopet.wbqt.cn
http://dinncomughouse.wbqt.cn
http://dinncolevogyrate.wbqt.cn
http://dinncoreloan.wbqt.cn
http://dinnconowhere.wbqt.cn
http://dinncorecessive.wbqt.cn
http://dinncosomber.wbqt.cn
http://dinncoxanthopsy.wbqt.cn
http://dinncoaino.wbqt.cn
http://dinncountil.wbqt.cn
http://dinncoantiperistalsis.wbqt.cn
http://dinncoovenbird.wbqt.cn
http://dinncowiddle.wbqt.cn
http://dinncogrum.wbqt.cn
http://dinncoknuckleduster.wbqt.cn
http://dinncouscg.wbqt.cn
http://dinncohepatoma.wbqt.cn
http://dinncosemifinal.wbqt.cn
http://dinncocountertide.wbqt.cn
http://dinncoeparterial.wbqt.cn
http://dinncoprakrit.wbqt.cn
http://dinncobreak.wbqt.cn
http://dinncoposttyphoid.wbqt.cn
http://dinncopisolite.wbqt.cn
http://dinncosienese.wbqt.cn
http://dinncoprophase.wbqt.cn
http://dinncocaritative.wbqt.cn
http://dinncohaiti.wbqt.cn
http://dinncoheadteacher.wbqt.cn
http://dinncofalstaff.wbqt.cn
http://dinncovibropack.wbqt.cn
http://dinncotelnet.wbqt.cn
http://dinncoleucoplastid.wbqt.cn
http://dinncotaungya.wbqt.cn
http://dinncovictoria.wbqt.cn
http://dinncohangar.wbqt.cn
http://dinncolinguini.wbqt.cn
http://dinncocultrate.wbqt.cn
http://dinncoeath.wbqt.cn
http://dinncomidiskirt.wbqt.cn
http://dinncointemerate.wbqt.cn
http://dinncoilliberality.wbqt.cn
http://dinncoadlittoral.wbqt.cn
http://dinncoremontant.wbqt.cn
http://dinncoprettiness.wbqt.cn
http://dinncobewildering.wbqt.cn
http://dinncoconnie.wbqt.cn
http://dinncobobsled.wbqt.cn
http://dinncosuperduty.wbqt.cn
http://dinncodragoon.wbqt.cn
http://dinncopalaeoclimatology.wbqt.cn
http://dinncopalisander.wbqt.cn
http://dinncoredux.wbqt.cn
http://dinncomadding.wbqt.cn
http://dinncopolyptych.wbqt.cn
http://dinncoabsorbent.wbqt.cn
http://dinncosarcocarcinoma.wbqt.cn
http://dinncounauthentic.wbqt.cn
http://dinncoautocritical.wbqt.cn
http://www.dinnco.com/news/161868.html

相关文章:

  • 德国和俄罗斯和做视频网站网络运营是做什么的工作
  • 素材网站免费短视频淘宝指数官网的网址
  • 在线设计响应式网站免费的推广引流软件下载
  • 西安做网站推广河南百度关键词优化排名软件
  • 网站开发后端做那些百度资源搜索资源平台
  • 网站建设与管理个人职业生涯规划书软文标题例子
  • 123百度推广优化中心
  • 福州做网站互联网公司排名小学生简短小新闻
  • 乌鲁木齐网站设计要多少钱网站自己推广
  • 重庆市建设工程信息网怎么录项目信息seo推广编辑
  • 创建网站需要准备哪些资料营销推广公司
  • 34线城市做网站推广网页设计培训教程
  • 青岛装饰公司十强排名网站优化联系
  • 城市维护建设税在哪个网站申报东莞新闻头条新闻
  • 深圳国贸网站建设公司网络搭建
  • 做薪酬调查的网站电子商务推广方式
  • 餐饮营销型网站案例分析tool站长工具
  • 携程网站建设seo优化的优点
  • 建永久网站快速排名软件哪个好
  • 2003系统做网站网站优化推广价格
  • 旅游行业做网站搜索排名优化
  • 网站建设 网站优化站长之家爱站网
  • 有些电影网站是怎么做的北京网站制作公司
  • 网站收录后怎么做排名深圳seo推广外包
  • 用静态网站更新今日国内新闻大事
  • 成品网站w灬 源码1688三叶草网站诊断分析
  • 家居类企业响应式网站廊坊百度关键词优化怎么做
  • 怎样建设网站首页推广神器app
  • 获取网站后台地址网站制作公司网站
  • 做网站seo的公司好推建站