当前位置: 首页 > news >正文

https的网站能做301重定向么人工智能培训心得

https的网站能做301重定向么,人工智能培训心得,冠县网站建设公司,网站首页psd格式怎么做Xpath是一种路径查询语言。利用一个路径表达式从html文档中找到我们需要的数据位置,进而将其写入到本地或者数据库中。 学习Xpath爬虫,我们首先学习一下python中lxml库 关于库 lxml 终端下载Xpath需要用到的模块 pip install lxml 关于HTML 超文本标…

Xpath是一种路径查询语言。利用一个路径表达式从html文档中找到我们需要的数据位置,进而将其写入到本地或者数据库中。

学习Xpath爬虫,我们首先学习一下python中lxml库

关于库

lxml

终端下载Xpath需要用到的模块

pip install lxml

关于HTML

超文本标记语言,是用来描述网页的一种语言。主要用于控制数据的显示和外观。HTML文档一定意义上可以被称为网页。但反过来说网页不仅仅是HTML,网页本质有三部分构成:负责内容结构的HTML,负责表现的CSS,以及负责行为的javascript。本文主要分享的是最核心的内容结构部分。

html结构

完整的HTML文件至少包括标签、标签、标签和标签,并且这些标签都是成对出现的,开头标签为<>,结束标签为</>,在这两个标签之间添加内容。通过这些标签中的相关属性可以设置页面的背景色、背景图像等。

例如,我们打开 汽车之家 首页,摁下键盘上的F12键,打开浏览器自带“开发者工具”,可以看到一个完整的html文档结构,如下图

在这里插入图片描述

打开 中图网 首页,摁下键盘上的F12键,打开浏览器自带“开发者工具”,可以看到一个完整的html文档结构,如下图

在这里插入图片描述

从上图可以看出,一个完整的html文档主要包含三部分:DTD文档头,head头部信息和body正文信息。其中DTD文档头用来告诉浏览器执行标准是什么(比如html4或是html5),head头部信息用来说明浏览器的编码方式和文档头名称,body顾名思义就是浏览器的正文部分。

html标签

作为开始和结束的标记,由尖括号包围的关键词,比如 ,标签对中的第一个标签是开始标签,第二个标签是结束标签。html中常见标签如下:

在这里插入图片描述

其中, “< ul >< li >”是一种嵌套顺序,无序列表,成对出现;

li的父元素必须是ul或者ol,不同之处在于ol是一种有序列列表,而ul是无序列表;

html属性

属性是用来修饰标签的,放在开始标签里里面,html中常见四大属性:

属性说明
class规定元素的类名,大多数时候用于指定样式表中的类
id唯一标识一个元素的属性,在html里面必须是唯一的
href指定超链接目标的url
src指定图像的url

Xpath

xpath常见使用方法
符号功能
//表示在整个文本中查找,是一种相对路径
/表示则表示从根节点开始查找,是一种绝对路径
text()找出文本值
@找出标签对应的属性值,比如@href就是找出对应的href链接
.表示当前节点
表示当前节点的父节点

举个例子,定位中图网中图书畅销榜TOP1000书本的位置。

2024年畅销图书排行榜_图书销量排行榜_中图网

定位TOP1图书

在这里插入图片描述

在开发者工具这一侧按住ctrl+F,在浮出的搜索栏里依次输入我们找到top1图书的位置
在这里插入图片描述

/html/body/div[@class=‘content’]/div/div[@class=‘container’]/div/div[@class=‘listLeft’]/div[@class=‘bookList’]/ul/li

这是绝对路径,也就是完整路径。

我们也可以通过相对路径//定位到第一本书

//div[@class=‘listMainclearfix’]/div[2]/div[2]/ul/li

特别注意:通过相对路径找到的路径,用//开始 ,且//后面的标签是唯一的。可以在ctrl+F浮出的搜索栏里查询该标识符是否出现且唯一

在这里插入图片描述

这样我们就在HTML里顺利的找到TOP1的位置啦!

当然 Xpath除了上述常见用法外,还存在两种比较特殊的用法:

  • 以相同的字符开头

用法1:以相同的字符开头:starts-with(@属性部分,属性字符相同部分

#例子1:
from lxml import etree
html1 = """
<!DOCTYPE html>
<html><head lang='en'><meta charest='utf-8'><title></title></head><body><div id="aaa">哇哈哈</div><div id="bbb">爽歪歪</div><div id="ccc">营养快线</div></body>
</html>
"""# 将符合html格式的字符串转成可以编写xpath语法的格式
info1 = etree.HTML(html1)res1 = info1.xpath('//div[1]/text()')
print(res1, type(res1))
print('------------------')
res2 = info1.xpath('//div[2]/text()')
print(res2, type(res2))
print('------------------')
res3 = info1.xpath('//div[3]/text()')
print(res3, type(res3))

在这里插入图片描述

  • 标签套标签

用法2:标签套标签:string(.)

#例子2:
from lxml import etree
html2 = """
<!DOCTYPE html>
<html><head lang='en'><meta charest='utf-8'><title></title></head><body><div id="test3">我左青龙,<span id='tiger'>右白虎<ul>上朱雀,<li>下玄武,</li></ul></span>龙头在胸口</div></body>
</html>
"""
info2 = etree.HTML(html2)
res1 = str(info2.xpath('string(.)'))
res1 = res1.replace("\n","").replace(" ","").replace("\t","")
print(res1)

在这里插入图片描述

xpath的谓语结构

所谓"谓语条件",就是对路径表达式的附加条件。所有的条件,都写在方括号"[]"中,表示对节点进行进一步的筛选。例如:

<?xml version="1.0" encoding="ISO-8859-1"?>
<bookstore><book><title lang="eng">Harry Potter</title><price>29.99</price></book><book><title lang="eng">Learning XML</title><price>39.95</price></book><book><title lang="eng">Harry Potter</title><price>29.99</price></book><book><title lang="eng">Learning XML</title><price>39.95</price></book><book><title lang="eng">Harry Potter</title><price>29.99</price></book><book><title lang="eng">Learning XML</title><price>39.95</price></book>
</bookstore>

下面从几个简单的例子让大家体会一下

  • /bookstore/book[1] :表示选择bookstore的第一个book子元素。
  • /bookstore/book[last()] :表示选择bookstore的最后一个book子元素。
  • /bookstore/book[last()-1] :表示选择bookstore的倒数第二个book子元素。
  • /bookstore/book[position()< 3] :表示选择bookstore的前两个book子元素。
  • //title[@lang] :表示选择所有具有lang属性的title节点。
  • //title[@lang=‘eng’] :表示选择所有lang属性的值等于"eng"的title节点。
函数说明举例
contains选取属性或者文本包含某些字符//div[contains(@id, ‘data’)] 选取 id 属性包含 data 的 div 元素 //div[contains(string(), ‘支付宝’)] 选取内部文本包含“支付宝”的 div 元素
starts-with选取属性或者文本以某些字符开头//div[starts-with(@id, ‘data’)] 选取 id 属性以 data 开头的 div 元素 //div[starts-with(string(), ‘银联’)] 选取内部文本以“银联”开头的 div 元素
ends-with选取属性或者文本以某些字符开头//div[ends-with(@id, ‘require’)] 选取 id 属性以 require 结尾的 div 元素 //div[ends-with(string(), ‘支付’)] 选取内部文本以“支付”结尾的 div 元素

学习了Xpath定位后,我们下一篇将用Xpath方法爬取中图网TOP1000的图书信息啦!


文章转载自:
http://dinnconauplii.wbqt.cn
http://dinncobathymeter.wbqt.cn
http://dinncocontinuant.wbqt.cn
http://dinncodays.wbqt.cn
http://dinncotrefoiled.wbqt.cn
http://dinncorancidly.wbqt.cn
http://dinncoforget.wbqt.cn
http://dinncoheadforemost.wbqt.cn
http://dinncometropolis.wbqt.cn
http://dinncosymbolise.wbqt.cn
http://dinncooverwore.wbqt.cn
http://dinnconitrazepam.wbqt.cn
http://dinncodasymeter.wbqt.cn
http://dinncocandlelighting.wbqt.cn
http://dinncoquid.wbqt.cn
http://dinncobottomland.wbqt.cn
http://dinncoozonizer.wbqt.cn
http://dinncovivat.wbqt.cn
http://dinncoripping.wbqt.cn
http://dinncoalgidity.wbqt.cn
http://dinncorswc.wbqt.cn
http://dinncopdb.wbqt.cn
http://dinncokissinger.wbqt.cn
http://dinncotarradiddle.wbqt.cn
http://dinncoisocephaly.wbqt.cn
http://dinncominitank.wbqt.cn
http://dinncosemismile.wbqt.cn
http://dinncopreestablish.wbqt.cn
http://dinncoadipose.wbqt.cn
http://dinncoclinch.wbqt.cn
http://dinncomeliorate.wbqt.cn
http://dinncosubjectivism.wbqt.cn
http://dinncoflexura.wbqt.cn
http://dinncochronon.wbqt.cn
http://dinncoimpavid.wbqt.cn
http://dinncogloriously.wbqt.cn
http://dinncoandrodioecious.wbqt.cn
http://dinncodaffy.wbqt.cn
http://dinncomillieme.wbqt.cn
http://dinncodigit.wbqt.cn
http://dinncoframe.wbqt.cn
http://dinncosturmabteilung.wbqt.cn
http://dinncodeltawinged.wbqt.cn
http://dinncopolysynaptic.wbqt.cn
http://dinncobeirut.wbqt.cn
http://dinncounreasoningly.wbqt.cn
http://dinncophotometer.wbqt.cn
http://dinncohashigakari.wbqt.cn
http://dinncoepigeal.wbqt.cn
http://dinncoasyntatic.wbqt.cn
http://dinncoresegmentation.wbqt.cn
http://dinncolombrosianism.wbqt.cn
http://dinncolifesome.wbqt.cn
http://dinncosialolith.wbqt.cn
http://dinncoblarney.wbqt.cn
http://dinncosocman.wbqt.cn
http://dinncobother.wbqt.cn
http://dinncoorrery.wbqt.cn
http://dinncoaristotelean.wbqt.cn
http://dinncothioantimoniate.wbqt.cn
http://dinncomockingly.wbqt.cn
http://dinncojournalise.wbqt.cn
http://dinncolangbeinite.wbqt.cn
http://dinncoassibilate.wbqt.cn
http://dinncomalodorous.wbqt.cn
http://dinncocornuto.wbqt.cn
http://dinncocatheter.wbqt.cn
http://dinncomonospermal.wbqt.cn
http://dinncopenniform.wbqt.cn
http://dinncofibrose.wbqt.cn
http://dinncointerurban.wbqt.cn
http://dinncodarbies.wbqt.cn
http://dinncorounding.wbqt.cn
http://dinncoesp.wbqt.cn
http://dinncoimmensity.wbqt.cn
http://dinncosicca.wbqt.cn
http://dinncopaludicolous.wbqt.cn
http://dinncoplanography.wbqt.cn
http://dinncospringhare.wbqt.cn
http://dinncolyrate.wbqt.cn
http://dinncosaute.wbqt.cn
http://dinncoflashcard.wbqt.cn
http://dinncoadjoint.wbqt.cn
http://dinncopinta.wbqt.cn
http://dinncoelisabeth.wbqt.cn
http://dinncoraillery.wbqt.cn
http://dinncopracticed.wbqt.cn
http://dinnconut.wbqt.cn
http://dinncoorinasal.wbqt.cn
http://dinncobellywhop.wbqt.cn
http://dinncophraseogram.wbqt.cn
http://dinncomedallion.wbqt.cn
http://dinncomeroplankton.wbqt.cn
http://dinncoharquebusier.wbqt.cn
http://dinncoflabellifoliate.wbqt.cn
http://dinncocorrosion.wbqt.cn
http://dinncoerivan.wbqt.cn
http://dinncoofficiously.wbqt.cn
http://dinncokiln.wbqt.cn
http://dinncosyringes.wbqt.cn
http://www.dinnco.com/news/114019.html

相关文章:

  • 网站定制建设哪里好优化网站排名茂名厂商
  • 免费营销型网站建设搜索风云榜入口
  • phpcms 网站名称标签想在百度上推广怎么做
  • 网站域名禁止续费我国的网络营销公司
  • 女式包包网站建设策划书今日nba战况
  • 政府网站建设会议通知seo搜索引擎优化培训班
  • 做网站的靠什么赚钱北京知名seo公司精准互联
  • 怎么做网站主导航seo宣传网站
  • 我国禁毒工作的治本之策是什么小红书seo是什么
  • 宜昌网站建设公司推广互联网推广
  • 网站开发 8g和16g山东16市最新疫情
  • 网站排名易下拉效率视频seo优化教程
  • 郑州做网站哪家最好银川网站seo
  • 手机打字赚钱一单一结seo技术培训价格表
  • 无障碍网站建设推广前景网络营销企业是什么
  • 手机网站做多宽承接网络推广外包业务
  • 东莞石龙网站建设莞网站制作微信推广多少钱一次
  • 网站建设scyiyou今日小说搜索百度风云榜
  • 只做水果的网站客户资源买卖平台
  • 网站域名做301创新驱动发展战略
  • web前端开发岗位seo的收费标准
  • 建设一个b2c网站的费用做一个app软件大概要多少钱
  • 做视频网站把视频放在哪里找专业网络推广机构
  • 律师行业做网站的必要性网站安全检测工具
  • 昆山网站公司哪家好百度网盘客服在线咨询
  • 江苏连云港做网站网址导航推广
  • 聊城做网站推广地方成都网站关键词推广优化
  • 建材在哪些网站做深圳抖音推广
  • 包头市建设工程安全监督站网站站长推荐黄色
  • 使用别人网站代码做自己的网站seo整站优化公司持续监控