当前位置: 首页 > news >正文

策划 网站外贸营销型网站建设公司

策划 网站,外贸营销型网站建设公司,做土特产的网站有哪些,公司网站 英文有如下一个网页,想要抓取其中内容,主要是IP Address和Port,使用python实现。 用F12看一下网页源代码,对应上图表格内容的部分如下: 使用python和lxml来定位爬取。 首先要安装lxml,如下命令(可以…

有如下一个网页,想要抓取其中内容,主要是IP Address和Port,使用python实现。

用F12看一下网页源代码,对应上图表格内容的部分如下:

 

使用python和lxml来定位爬取。

首先要安装lxml,如下命令(可以在pycharm项目的Terminal中运行):

pip3 install lxml

实现代码:

from lxml import etree
import requestsurl = 'https://www.example.com'
r = requests.get(url)
result = r.text
html = etree.HTML(result)rows = html.xpath(".//div[@class='table-responsive fpl-list']/table/tbody/tr[position()>0]")proxy_list = []
for row in rows:td_list1 = row.xpath('./td[1]')td_list2 = row.xpath('./td[2]')ip = td_list1[0].text.replace(' ','').replace('\t','').replace('\n','')port = td_list2[0].text.replace(' ','').replace('\t','').replace('\n','')web_proxy = {'ip': ip, 'port': port, 'types': 0, 'protocol': '0', 'country': '0', 'area': '0', 'speed': 100}proxy_list.append(web_proxy)print(proxy_list

说明:

在HTML中,tr、td、th是用于构建表格的核心标签‌:tr(Table Row)定义表格行,td(Table Data)定义标准数据单元格,th(Table Header)定义表头单元格。‌‌

结合上述代码,rows即是获取的表格中的所有行。

然后针对每一行进行操作。从每一行中,定位并获取需要的单元格的文本内容(此行第一列的单元格就是td[1],第二列就是td[2],使用.text获取其文本内容,注意:使用row.xpath获取出的是一个列表,需要加一个[0]来成为单个元素)。

http://www.dinnco.com/news/81507.html

相关文章:

  • mil后缀网站深圳网站建设公司官网
  • 政府门户网站建设经验总结品牌营销战略
  • dw网页制作模板教程上海网站seo排名优化
  • 政府网站制作方案营销网页
  • 江阴做网站的公司百度竞价客服电话
  • 中文个人网站模板下载最稳定的灰色词排名
  • 自己做开奖网站长春seo顾问
  • 网站针对爬虫爬取做的优化网站宣传费用
  • 绵阳专门做网站的公司有哪些指数基金定投怎么买
  • 网页开发公司网站抖音seo招商
  • 中企动力网站好么手机百度账号登录入口
  • 不想花钱做网站推广郑州网络seo公司
  • 网站的维护百度推广代理怎么加盟
  • apache 配置wordpressseo页面优化技术
  • 动漫设计工作室网站建设公司站长统计在线观看
  • 做网站顺序it培训四个月骗局
  • 宝鸡精品网站开发正规seo排名多少钱
  • 外贸网站建设流程图在线网页制作网站
  • 传奇私服网站搭建教程百度站长工具怎么用
  • 沈阳有名的设计公司有哪些济宁seo公司
  • 南皮做网站网站关键词优化软件效果
  • 邢台装修网站建设seo顾问咨询
  • 企业网站建设方案 功能规划从事网络销售都有哪些平台呢
  • 网罗天下做网站靠谱吗抖音搜索引擎推广
  • 如何禁止某ip访问网站黄页引流推广网站软件免费
  • wordpress建站案例视频教程关键字查找
  • 大连网站制作网页小说网站排名前十
  • 查企业下载什么软件seo关键词优化公司哪家好
  • 做网站 接单赣州seo
  • 满洲里网站建设如何搜索关键词热度