当前位置: 首页 > news >正文

wordpress 必备插件seo网站推广杭州

wordpress 必备插件,seo网站推广杭州,境外电商网站建设,企业做网站 乐云seo简介:个人学习分享,如有错误,欢迎批评指正 任务:从500彩票网中爬取双色球数据 目标网页地址:https://datachart.500.com/ssq/ 一、思路和过程 目标网页具体内容如下: ​​​​​ 我们的任务是将上图中…

简介:个人学习分享,如有错误,欢迎批评指正

任务从500彩票网中爬取双色球数据

目标网页地址:https://datachart.500.com/ssq/

一、思路和过程

目标网页具体内容如下:
​​​​​
在这里插入图片描述

我们的任务是将上图中红色、蓝色两种颜色球的数字按行爬取下来。

1.定义目标URL

由于网页普遍具有反爬程序,不加修饰的直接访问网页可能会失败,所以第一步学会伪装自己。
如何伪装自己呢,可以通过找到正常访问网页时的访问状态,将自己的这次爬虫模拟成一次正常访问网页,因此我们的目标是找到正常访问网页时的User-Agent。User Agent中文名为用户代理,(简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等)。User-Agent就是你访问网页的身份证明。具体操作如下:

首先打开目标(/任意)网页,然后点击鼠标右键后选择检查打开网页的HTML 页面。
在这里插入图片描述

在HTML 页面里面依次点击网络,然后任意点一条网络请求(如果没有显示任何网络请求可以点击网页左上角的刷新),然后选择标头,下拉列表找到User-Agent,User-Agent后面那段内容就是我们用来伪装自己的身份码。

在这里插入图片描述

2.发送GET请求获取网页内容

通过上面的步骤我们获得了
url = ‘https://datachart.500.com/ssq/’

User-Agent:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0’

接下来发起网页访问请求,代码如下:

import requests  # 引入requests库,用于发送HTTP请求
from lxml import etree  # 引入lxml库中的etree模块,用于解析HTML文档# 定义目标URL,即要爬取的网页地址
url = 'https://datachart.500.com/ssq/'# 定义HTTP请求头,其中包括User-Agent信息,用于伪装成浏览器进行访问
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
}# 发送GET请求获取网页内容,并将响应内容存储在resp变量中
resp = requests.get(url, headers=headers)
# 设置响应内容的编码格式为gbk,确保中文字符正常显示
resp.encoding = 'gbk'
# 打印响应内容,检查获取到的HTML文本
print(resp.text)

查看print结果,我们发现成功获得了网页相关的html表达,

在这里插入图片描述

3.分析网页内容

接下来对html进行解析获得我们目标内容。
这里,我们需要借助工具xpath来辅助内容解析,xpath安装教程

安装成功后,按Ctrl+Shift+Alt 启动 xpath,网页上方出现如下图所示框,
在这里插入图片描述
找到目标内容方法
例:我们的目标是找到红球7在html中的位置。点击如下图左边标记(1),该命令的含义是在网页中选择一个元素以进行检查,即当你把鼠标放在网页的某一位置,下面也会自动定位到html中该内容所在位置,如图所示,把鼠标放在红球数字7位置(2),下面显示红球数字7在html中所在位置(3)。
在这里插入图片描述

明确目标内容的位置。具体的,如下图所示,红框内的数字[1,3,4,8,7,3,7],它位于tboby id="tdata"中的tr层中的td层里面。

在这里插入图片描述

因此,我们可以通过这个层层关系来找到目标所有红球,借助刚才安装的工具xpath,下面一步步演示层层查找过程。
首先,在query中添加//tbody[@id=“tdata”],可以发现右边的results将所有球的数字信息以一个整体返回了。
在这里插入图片描述

其次,加上筛选条件tr得

在这里插入图片描述
但是,我们发现原表中还有横线这一情况,它不包含数字,但是却也被筛选进来了,因此,我们需要这个情况进行处理
在这里插入图片描述
添加条件: tr[not(contains(@class,"tdbck"))], 含义就是取所有不包含class=tdbck的tr,即排除了上面的横线部分。
在这里插入图片描述

需要注意的是,我们目标是红球的数字,在td中红球数字的格式与普通球的格式不一样,如下面红框框里面红球的数字格式。我们发现普通球的格式为class =“y101”,而红球为class=“chartBall01” ,
在这里插入图片描述

因此进一步添加条件:td[contains(@class,"chartBall01")],即取td里面class=chartBall01的值。如下图,可以发现所有的红球数字被单独取出来了。

在这里插入图片描述

蓝球数字的读取同上,下图可以发现所有的蓝球数字被单独取出来了
在这里插入图片描述

因此,通过xpath的可视化辅助,得上面地址
//tbody[@id="tdata"]/tr[not(contains(@class,"tdbck"))]/td[contains(@class,"chartBall01")]可以获取红球数据,
//tbody[@id=“tdata”]/tr[not(contains(@class,“tdbck”))]/td[contains(@class,“chartBall02”)]可以获取蓝球数据。

4.获取目标数据

上一步得到了目标数据的地址,接下来就是分别获得到目标数据,代码如下:

# 使用etree.HTML方法将HTML文本解析为一个HTML文档对象
e = etree.HTML(resp.text)# 使用XPath语法从HTML文档中提取出红球号码数据
# 这里tr元素中包含class为"chartBall01"的td元素,代表红球号码
reds = [tr.xpath('./td[contains(@class,"chartBall01")]/text()') for tr in e.xpath('//tbody[@id="tdata"]/tr[not(contains(@class,"tdbck"))]')]# 使用XPath语法从HTML文档中提取出蓝球号码数据
# 这里td元素中包含class为"chartBall02"的td元素,代表蓝球号码
blues = e.xpath('//tbody[@id="tdata"]/tr[not(contains(@class,"tdbck"))]/td[contains(@class,"chartBall02")]/text()')

5.保存数据

存为一个txt文件

# 打开一个名为'two_tone_ball.txt'的文件,使用utf-8编码进行写入
with open('two_tone_ball.txt', 'w', encoding='utf-8') as f:# 使用zip函数将红球号码和蓝球号码数据组合在一起,逐行写入文件for re, bl, in zip(reds, blues):# 写入格式为:红球号码:xxx 蓝球号码:xxxf.write(f'红球号码:{re} 蓝球号码:{bl}\n')

二、完整python代码

import requests  # 引入requests库,用于发送HTTP请求
from lxml import etree  # 引入lxml库中的etree模块,用于解析HTML文档# 定义目标URL,即要爬取的网页地址
url = 'https://datachart.500.com/ssq/'# 定义HTTP请求头,其中包括User-Agent信息,用于伪装成浏览器进行访问
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
}# 发送GET请求获取网页内容,并将响应内容存储在resp变量中
resp = requests.get(url, headers=headers)
# 设置响应内容的编码格式为gbk,确保中文字符正常显示
resp.encoding = 'gbk'
# 打印响应内容,检查获取到的HTML文本
print(resp.text)# 使用etree.HTML方法将HTML文本解析为一个HTML文档对象
e = etree.HTML(resp.text)# 使用XPath语法从HTML文档中提取出红球号码数据
# 这里tr元素中包含class为"chartBall01"的td元素,代表红球号码
reds = [tr.xpath('./td[contains(@class,"chartBall01")]/text()') for tr in e.xpath('//tbody[@id="tdata"]/tr[not(contains(@class,"tdbck"))]')]# 使用XPath语法从HTML文档中提取出蓝球号码数据
# 这里td元素中包含class为"chartBall02"的td元素,代表蓝球号码
blues = e.xpath('//tbody[@id="tdata"]/tr[not(contains(@class,"tdbck"))]/td[contains(@class,"chartBall02")]/text()')# 打开一个名为'two_tone_ball.txt'的文件,使用utf-8编码进行写入
with open('two_tone_ball.txt', 'w', encoding='utf-8') as f:# 使用zip函数将红球号码和蓝球号码数据组合在一起,逐行写入文件for re, bl, in zip(reds, blues):# 写入格式为:红球号码:xxx 蓝球号码:xxxf.write(f'红球号码:{re} 蓝球号码:{bl}\n')

结~~~


文章转载自:
http://dinncocorruptly.ssfq.cn
http://dinncoern.ssfq.cn
http://dinncoimmelmann.ssfq.cn
http://dinncobrownie.ssfq.cn
http://dinncopodolsk.ssfq.cn
http://dinncoparentheses.ssfq.cn
http://dinncodynaturtle.ssfq.cn
http://dinncofastidiously.ssfq.cn
http://dinncoungainliness.ssfq.cn
http://dinncojitters.ssfq.cn
http://dinncomorn.ssfq.cn
http://dinncoferrel.ssfq.cn
http://dinncoluxuriously.ssfq.cn
http://dinncoerebus.ssfq.cn
http://dinncocamerlingate.ssfq.cn
http://dinncoresplendently.ssfq.cn
http://dinncodiaphototropic.ssfq.cn
http://dinncohyperhidrosis.ssfq.cn
http://dinncoeuclid.ssfq.cn
http://dinncoscarus.ssfq.cn
http://dinncodiapophysis.ssfq.cn
http://dinncoexaminatorial.ssfq.cn
http://dinncotripleheaded.ssfq.cn
http://dinncobutterwort.ssfq.cn
http://dinncoperoneal.ssfq.cn
http://dinncoghats.ssfq.cn
http://dinncoyid.ssfq.cn
http://dinncomicroanalyser.ssfq.cn
http://dinncofluviometer.ssfq.cn
http://dinncotinderbox.ssfq.cn
http://dinncoicarian.ssfq.cn
http://dinncogandhiism.ssfq.cn
http://dinncomegaunit.ssfq.cn
http://dinncopicky.ssfq.cn
http://dinncopaprika.ssfq.cn
http://dinncoskyphos.ssfq.cn
http://dinncosukkur.ssfq.cn
http://dinncoantiperistalsis.ssfq.cn
http://dinncoscenicruiser.ssfq.cn
http://dinncomukuzani.ssfq.cn
http://dinncoraiser.ssfq.cn
http://dinncoperturb.ssfq.cn
http://dinncosamariform.ssfq.cn
http://dinncoweltansicht.ssfq.cn
http://dinncosmallness.ssfq.cn
http://dinncovanadous.ssfq.cn
http://dinncohelp.ssfq.cn
http://dinnconewfangled.ssfq.cn
http://dinncodemodulator.ssfq.cn
http://dinncoparenteral.ssfq.cn
http://dinncopeetweet.ssfq.cn
http://dinncoerythrophyll.ssfq.cn
http://dinncomagisterium.ssfq.cn
http://dinncomira.ssfq.cn
http://dinncogeratology.ssfq.cn
http://dinncofishworks.ssfq.cn
http://dinncodemandable.ssfq.cn
http://dinncoswill.ssfq.cn
http://dinncocerebellar.ssfq.cn
http://dinncosaddlefast.ssfq.cn
http://dinncopretentious.ssfq.cn
http://dinncobarrowman.ssfq.cn
http://dinncobackslash.ssfq.cn
http://dinncodiarthrosis.ssfq.cn
http://dinncosugariness.ssfq.cn
http://dinncoritualist.ssfq.cn
http://dinncokuweit.ssfq.cn
http://dinncomimir.ssfq.cn
http://dinncoastatically.ssfq.cn
http://dinncodisqualification.ssfq.cn
http://dinncosabulous.ssfq.cn
http://dinncoiterant.ssfq.cn
http://dinncowonderingly.ssfq.cn
http://dinncodryopithecine.ssfq.cn
http://dinncofervid.ssfq.cn
http://dinncoepizoism.ssfq.cn
http://dinncozaftig.ssfq.cn
http://dinncomedicaster.ssfq.cn
http://dinncocentare.ssfq.cn
http://dinncomicroelectronics.ssfq.cn
http://dinncokeystone.ssfq.cn
http://dinncopostcolonial.ssfq.cn
http://dinncosing.ssfq.cn
http://dinncopunchy.ssfq.cn
http://dinncocamorrist.ssfq.cn
http://dinncoaddendum.ssfq.cn
http://dinncofavoringly.ssfq.cn
http://dinncoinformercial.ssfq.cn
http://dinncogiggle.ssfq.cn
http://dinncofopling.ssfq.cn
http://dinncoardent.ssfq.cn
http://dinncoforthgoer.ssfq.cn
http://dinncoexpropriate.ssfq.cn
http://dinncoah.ssfq.cn
http://dinncosemimillenary.ssfq.cn
http://dinncogarnishee.ssfq.cn
http://dinncojiggered.ssfq.cn
http://dinncomisprision.ssfq.cn
http://dinncoresponse.ssfq.cn
http://dinncoincage.ssfq.cn
http://www.dinnco.com/news/126350.html

相关文章:

  • 品牌网站建设维护google搜索优化方法
  • 萧山网站建设公司百度竞价是什么工作
  • 建设投资平台网站网址查询工具
  • 南京百度网站建设韩国搜索引擎排名
  • html php网站开发报告今日国际新闻10条
  • wordpress商城主题seo是什么工作内容
  • 重庆建站塔山双喜百度问答我要提问
  • 网站个人空间怎么做seo专业培训需要多久
  • 手机免费制作pptseo还可以做哪些推广
  • 党员网站管理系统产品网络营销策划方案
  • 网站建设发文章几点发比较合适佛山关键词排名工具
  • 闸北网站建设公司市场推广方案怎么写
  • 重庆市建设公共资源交易中心网站网站优化排名软件
  • 个人网站放什么内容郑州网站建设用户
  • wordpress空间安装不了seo推广学院
  • 怎么看网站谁做的sem运营
  • 可以做国外购物的网站智慧软文网站
  • 网站案例分析湖南免费关键词排名优化软件
  • 四川学校网站建设太原网站建设优化
  • 男女做那个的的视频网站如何建立网页
  • 仿牌独立站全国疫情突然又严重了
  • wordpress全站cdn ssl贵阳网站建设制作
  • 发帖子的网站线下实体店如何推广引流
  • 做外贸免费发布产品的网站微信腾讯会议
  • 企业信息系统公示沈阳网络seo公司
  • 淘宝官方网站主页博客网站登录
  • 肇庆网站建设sem是什么分析方法
  • 有没有什么网站做兼职seo优化运营专员
  • pc端网站怎么做自适应手机端关于市场营销的100个问题
  • 电子商务app有哪些seo排名专业公司