当前位置: 首页 > news >正文

超市供应商平台百度seo指南

超市供应商平台,百度seo指南,公众号开发小程序开发,云南app开发系统安装 pip install lxml导入 from lxml import etreexpath使用路径表达式提取html文档中的元素或元素集,然后元素通过沿路径path或步steps来选取数据 XPath常用语法格式 表达式描述div选取div元素的所有子元素/div选取根元素divul//li选取ul元素下的所有li子元素…

安装

pip install lxml

导入

from lxml import etree

xpath使用路径表达式提取html文档中的元素或元素集,然后元素通过沿路径path或步steps来选取数据

XPath常用语法格式

表达式描述
div选取div元素的所有子元素
/div选取根元素div
ul//li选取ul元素下的所有li子元素
//@class选取所有具有class属性的元素
ul/li/[1]选取ul元素下的第一个li子元素
//div[@id=‘t2’]选取id属性为t2的所有div元素
//li[@class=‘box’]选取class属性为box的li子元素
/div/ui/li[@class=‘top’]选取根元素div下ul元素下的class属性为top的li子元素
//li/a/@href获取li元素下所有a元素的href值
//li/a/text()获取li元素下所有a元素的文本内容

使用xpath匹配数据实践

爬取彼岸图4k高清动漫壁纸 https://pic.netbian.com/4kdongman/

爬取第一页的图片

import requests
from lxml import etree
import osurl = 'https://pic.netbian.com/4kdongman/index.html'
r = requests.get(url)
r.encoding='gbk'
html = etree.HTML(r.text)# <Element html at 0x11647c63ec8>
img_urls = html.xpath("//div[@class='slist']/ul/li/a/@href")# ['/tupian/32274.html', '/tupian/32257.html', ...
for img_url in img_urls:# 第二层urlimg_url = 'https://pic.netbian.com' + img_urlrr = requests.get(url=img_url)rr.encoding='gbk'img_html = etree.HTML(rr.text)img_name = img_html.xpath("//a[@id='img']/img/@title")[0]# 高清图片的srcimg_src = 'https://pic.netbian.com' + img_html.xpath("//a[@id='img']/img/@src")[0]rimg = requests.get(url = img_src)# 可以改文件夹的名字folder_name = 'dongman'if not os.path.exists(folder_name):os.mkdir(folder_name)# 保存图片with open(f'{folder_name}/{img_name}.jpg','wb') as f:f.write(rimg.content)print(img_name)

在这里插入图片描述
批量爬取多页图片

http://www.dinnco.com/news/36290.html

相关文章:

  • 佛山网站建设哪个好点广州网站建设
  • wix英文网站建设长沙关键词排名软件
  • 模板网站建设哪家专业推广普通话的内容
  • 如何建设自己的公司网站网上推广渠道有哪些
  • 重庆一站式建设网站平台全网自媒体平台大全
  • 哈尔滨网站建设服务十大洗脑广告
  • 专业做网站建设的公司微信营销号
  • 水利部建设管理与质量安中心网站朋友圈的广告推广怎么弄
  • 分类wordpress成都百度推广和seo优化
  • eclipse做网站代码网络推广怎么样
  • wordpress登录接口百度seo优化系统
  • wordpress隐藏站点标题环球网最新消息疫情
  • 天津武清网站开发百度知道合伙人答题兼职入口
  • 西城做网站公司深圳网络营销全网推广
  • 大庆做网站的公司河北seo公司
  • 中国建设工程招标官方网站站长工具seo综合查询是什么
  • seo 网站地图营销知识和技巧
  • 临沂企业做网站31省市新增疫情最新消息
  • 提高网站目标流量关键词竞价排名是什么意思
  • 重庆建设工程质量监督检测中心seo关键词排名优化费用
  • 车工订单网站北京快速优化排名
  • wordpress4.94主题上传不显示seo顾问能赚钱吗
  • 会员制网站 建设百度网盘破解版
  • tooopen素材公社新站点seo联系方式
  • 做网站建设哪家公司好公司网站制作要多少钱
  • h5商城网站开发网络推广计划方案
  • DW做网站下拉列表怎么做烟台seo快速排名
  • 云南哪里有给做网站的b站推广入口在哪
  • 做网站用什么空间宁波seo网站推广软件
  • 字牌标识公司网站网站编号 6019百度合伙人答题兼职赚钱