当前位置: 首页 > news >正文

如何在网站上做飘窗链接阿里云搜索引擎入口

如何在网站上做飘窗链接,阿里云搜索引擎入口,武汉网站制作与建设,重庆官网seo技术厂家一、在B站上爬取一段视频(B站视频有音频和视频两个部分) 1、获取URL 注意:很多平台都有反爬取的机制,B站也不例外 首先按下F12找到第一条复制URL 2、UA伪装,下列图片中(注意代码书写格式) 3、Co…

一、在B站上爬取一段视频(B站视频有音频和视频两个部分)

        1、获取URL

        注意:很多平台都有反爬取的机制,B站也不例外

        首先按下F12找到第一条复制URL

        2、UA伪装,下列图片中(注意代码书写格式)

        3、Cookie,

        在上节课以及说了Cookie这个东西,需要我们登录后的复制的才有用,其需要在左侧找到web对应的页面找到,如下图所示:

        4、防盗链:

        用来告诉服务器你请求链接是从哪里跳转过来的,没有这个,就无法成功。(即使下载好后,打开文件,会显示无法播放)

        防盗链是指通过设置HTTP请求的Referer头字段来限制其他网站对自身网站资源的访问。在爬取数据时,开发者可以在HTTP请求中添加Referer字段,告知服务器请求的来源页面。服务器会检查Referer字段来判断请求是否来自合法的来源页面,如果不合法,服务器可能会拒绝该请求或返回错误信息。

而最上面第二张图里的红色框就是Referer,将它复制过来就可以了

注意:User-Agent、Cookie、Referer需要写在head里传入get请求属性内,必须字母大小写完全一致

head={#UA伪装'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0',#防盗链'Referer':'https://www.bilibili.com/video/BV1Hm421g7Uk/?spm_id_from=333.1007.tianma.10-1-35.click',#Cookie,用户登录信息'Cookie':"buvid3=380A54AC-1380-1A80-3501-B4D8CCABA7BF29897infoc; b_nut=1720504429; _uuid=13E92EE8-61F4-5115-D85B-AA5944A8C35D29991infoc; enable_web_push=DISABLE; buvid4=D79928A9-BA71-3CF7-EF1B-C8E41318CF0731079-024070905-IYJQtQw8DTdtrI0uY1UGvQ%3D%3D; b_lsid=1A3CF2B8_190D4BF05FC; bsource=search_bing; header_theme_version=CLOSE; CURRENT_FNVAL=4048; bili_ticket=eyJhbGciOiJIUzI1NiIsImtpZCI6InMwMyIsInR5cCI6IkpXVCJ9.eyJleHAiOjE3MjE4MTU0MTksImlhdCI6MTcyMTU1NjE1OSwicGx0IjotMX0.ExMDwTuyn9PYFV0sqW9gxFH4UDmKR-BkkgHHmOAIGls; bili_ticket_expires=1721815359; sid=8q9u9sec; home_feed_column=5; browser_resolution=1488-755; is-2022-channel=1; rpdid=|(Y|RJRl|k|0J'u~kullYJul; fingerprint=3413b6ee321fed7d51121223b51b31f5; buvid_fp_plain=undefined; buvid_fp=3413b6ee321fed7d51121223b51b31f5"}

        5、content-type类型的查看:

        同样是在左侧web标签页下寻找,可以发现当前页面是text类型:

此处代码实现如下:

import requestsif __name__ == '__main__':url='https://www.bilibili.com/video/BV1Hm421g7Uk/?spm_id_from=333.1007.tianma.10-1-35.click'head={#UA伪装'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0',#防盗链'Referer':'https://www.bilibili.com/video/BV1Hm421g7Uk/?spm_id_from=333.1007.tianma.10-1-35.click',#Cookie,用户登录信息'Cookie':"buvid3=380A54AC-1380-1A80-3501-B4D8CCABA7BF29897infoc; b_nut=1720504429; _uuid=13E92EE8-61F4-5115-D85B-AA5944A8C35D29991infoc; enable_web_push=DISABLE; buvid4=D79928A9-BA71-3CF7-EF1B-C8E41318CF0731079-024070905-IYJQtQw8DTdtrI0uY1UGvQ%3D%3D; b_lsid=1A3CF2B8_190D4BF05FC; bsource=search_bing; header_theme_version=CLOSE; CURRENT_FNVAL=4048; bili_ticket=eyJhbGciOiJIUzI1NiIsImtpZCI6InMwMyIsInR5cCI6IkpXVCJ9.eyJleHAiOjE3MjE4MTU0MTksImlhdCI6MTcyMTU1NjE1OSwicGx0IjotMX0.ExMDwTuyn9PYFV0sqW9gxFH4UDmKR-BkkgHHmOAIGls; bili_ticket_expires=1721815359; sid=8q9u9sec; home_feed_column=5; browser_resolution=1488-755; is-2022-channel=1; rpdid=|(Y|RJRl|k|0J'u~kullYJul; fingerprint=3413b6ee321fed7d51121223b51b31f5; buvid_fp_plain=undefined; buvid_fp=3413b6ee321fed7d51121223b51b31f5"}#发送get请求response=requests.get(url,headers=head)res_txt=response.text#打印获取到的数据print(res_txt)

代码打印的结果为:

如此便是正确的爬取到了视频网页的内容,接下来便可以接着进行下一步

        6、找到视频和音频地址

        B站视频是和音频分开的,所以需要我们额外去找,点击F12后在第一条的响应里右边滚轮拖到最顶端,找到这个界面:

在这个标签下可以发现video

video标签这里的baseUrl就是视频的地址,继续下拉会发现这个audio这个标签,这下面baseUrl存放的就是音频的地址

7、定位到需要内容页面

注意:这一步的目的就是为了找到上面的视频和音频的baseUrl,因为视频存放地址的代码基本在这个平台基本都是一致的,所以为了爬取更多的B站的视频就需要快速定位到视频URL,而不需要像上一点那样一条一条找每个视频的URL。

打开元素页面找到head标签下的第四个script标签,这里存放的使我们需要的内容,如下列图片,其类似于上节课xpath所有的li标签的内容

有了这么多的数据就可以开始写代码了

首先我们获取到了res_txt内容,那么便去用etree解析这段内容,然后在对xpath返回的列表用join去除括号处理得到字符串,然后前面那段(window.__playinfo__=)内容我们不需要,所以用索引去除,去除后得到的是json大字符串,可以将它转换成字典

#解析获取的数据
tree=etree.HTML(res_txt)
#利用xpath找到视频地址
base_info="".join(tree.xpath('/html/head/script[4]/text()'))[20:]
print(base_info)

打印后得到的内容如下,可以看出他是一个json字符串

然后用json.loads()将其转换成字典,代码如下

#将json大字符串转换成字典类型,然后通过键取值
video_url=json.loads(base_info)['date']['dash']['video'][0]['baseUrl']
audio_url = json.loads(base_info)["data"]["dash"]['audio'][0]["baseUrl"]

其中json.loads(base_info)是将base_info转化成字典的形式,后面的['date']['dash']['video']则是字典的键,而video键所对应的值为列表,而我们所需要的videoUrl就在这个列表的第一个元素的字典里,所以索引为0得到另一个字典,另一个字典中的["baseUrl"]则对于我们所需要的video_url,具体可通过下图来直观解释:

同样可以通过这个方法找到音频的URL,然后在通过这些URL发送get请求得到音频和视频的二进制编码,再将这些编码写入文件,即可得到视频文件和音频文件,其后缀名都为mp4格式,如下代码即可获取视频和音频的全部二进制数据

#将json大字符串转换成字典类型,然后通过键取值得到音频和视频的URL
video_url=json.loads(base_info)['date']['dash']['video'][0]['baseUrl']
audio_url = json.loads(base_info)["data"]["dash"]['audio'][0]["baseUrl"]#发送get请求获取音频和视频的数据
video_re=requests.get(video_url,headers=head)
audio_re=requests.get(audio_url,headers=head)video_con=video_re.content
audio_con=audio_re.content

然后再创建mp4文件,将这些数据存放进去,即可完成视频爬取,后期在通过音视频合成工具将两个内容合并即可

with open('./video.mp4','wb') as f:f.write(video_con)with open('./audio.mp4','wb') as fp:fp.write(audio_con)

点击运行以后即可在左侧文件夹中找到两个mp4音视频文件

需要在当前代码存放文件夹内打开,而不是再pycharm编译器内打开


文章转载自:
http://dinncojaguar.stkw.cn
http://dinncodeathday.stkw.cn
http://dinncoduodenectomy.stkw.cn
http://dinncomesembryanthemum.stkw.cn
http://dinncoeffectively.stkw.cn
http://dinncobottomland.stkw.cn
http://dinncoroot.stkw.cn
http://dinncovermis.stkw.cn
http://dinncowiener.stkw.cn
http://dinncostub.stkw.cn
http://dinncoradioprotective.stkw.cn
http://dinncojugulation.stkw.cn
http://dinncosheepherder.stkw.cn
http://dinncounexampled.stkw.cn
http://dinncofieldward.stkw.cn
http://dinncointellectualise.stkw.cn
http://dinncohetman.stkw.cn
http://dinncofiver.stkw.cn
http://dinncounsolicitous.stkw.cn
http://dinncodownbeat.stkw.cn
http://dinncosliprail.stkw.cn
http://dinncoversiera.stkw.cn
http://dinncophoneme.stkw.cn
http://dinncoslumber.stkw.cn
http://dinncosuperfluorescence.stkw.cn
http://dinncoommatophore.stkw.cn
http://dinncoconglomeratic.stkw.cn
http://dinncodurum.stkw.cn
http://dinncooit.stkw.cn
http://dinncodenuclearise.stkw.cn
http://dinncochemotropic.stkw.cn
http://dinncolorimer.stkw.cn
http://dinncographical.stkw.cn
http://dinncobroiler.stkw.cn
http://dinncosupranatural.stkw.cn
http://dinncomargaritic.stkw.cn
http://dinncosernyl.stkw.cn
http://dinncomarseilles.stkw.cn
http://dinncoenvenomation.stkw.cn
http://dinncobluegrass.stkw.cn
http://dinncoreinter.stkw.cn
http://dinncolagoon.stkw.cn
http://dinncobeylik.stkw.cn
http://dinncopilotage.stkw.cn
http://dinncorotascope.stkw.cn
http://dinncoenthralling.stkw.cn
http://dinncoeffrontery.stkw.cn
http://dinncoimperfectible.stkw.cn
http://dinncocorrelation.stkw.cn
http://dinncotchick.stkw.cn
http://dinncoirrigator.stkw.cn
http://dinncohumeral.stkw.cn
http://dinncomutually.stkw.cn
http://dinncoinfieldsman.stkw.cn
http://dinncoadagio.stkw.cn
http://dinncounbuild.stkw.cn
http://dinncogam.stkw.cn
http://dinncowaterhead.stkw.cn
http://dinncoproductivity.stkw.cn
http://dinncojollity.stkw.cn
http://dinnconarc.stkw.cn
http://dinncovolte.stkw.cn
http://dinncorowdyism.stkw.cn
http://dinncocounterdrive.stkw.cn
http://dinncosomeone.stkw.cn
http://dinncosiriasis.stkw.cn
http://dinncofranz.stkw.cn
http://dinncorightpages.stkw.cn
http://dinncodermatoglyph.stkw.cn
http://dinncoototoxic.stkw.cn
http://dinncoroundish.stkw.cn
http://dinncostramonium.stkw.cn
http://dinncocongee.stkw.cn
http://dinncocarbecue.stkw.cn
http://dinncompls.stkw.cn
http://dinncotympan.stkw.cn
http://dinncotuberosity.stkw.cn
http://dinncosoarable.stkw.cn
http://dinncoburgoo.stkw.cn
http://dinncoanticipation.stkw.cn
http://dinncounspliced.stkw.cn
http://dinncobitingly.stkw.cn
http://dinncoinnutritious.stkw.cn
http://dinncoapodal.stkw.cn
http://dinncodistome.stkw.cn
http://dinncodrawplate.stkw.cn
http://dinncopractitioner.stkw.cn
http://dinncohereof.stkw.cn
http://dinncoholpen.stkw.cn
http://dinncomolluscicide.stkw.cn
http://dinncotubectomy.stkw.cn
http://dinncopiperin.stkw.cn
http://dinncozareba.stkw.cn
http://dinncowigging.stkw.cn
http://dinncotameless.stkw.cn
http://dinncomalacostracan.stkw.cn
http://dinncopattypan.stkw.cn
http://dinncoabsenteeism.stkw.cn
http://dinncopeastick.stkw.cn
http://dinncoapoapsis.stkw.cn
http://www.dinnco.com/news/134318.html

相关文章:

  • 百度关键词推广多少钱网站如何优化排名
  • 建立网站需要多少钱怎么样北京seo公司网站
  • 如何查找昆明做网站服务的公司百度搜索引擎网址
  • 电子商务网站建设的策划书酒店机票搜索量暴涨
  • 创建网站主题在哪里seo关键字排名
  • 做任务的网站百度推广开户费用多少
  • 服务器 做网站百度广告推广价格
  • 微电影网站模板云盘网页版登录
  • 免费的网站有哪些建立营销型网站
  • 成全视频免费观看在线看游戏南山网站seo
  • 公司电子邮箱怎么注册黑帽seo技术有哪些
  • 天津 响应式网站设计山东seo
  • 淘宝店铺网站建设快速开发平台
  • 网站被清空了怎么办知名品牌营销策略
  • 网站建设包括哪些网站建站模板
  • wordpress客户表单数据嘉兴seo计费管理
  • dede本地搭建网站代发百度关键词排名
  • 做酒网站丽水百度seo
  • 如何扫描一个网站的漏洞排位及资讯
  • c2c网站建设费用手机营销软件
  • 做网站需要网站负责人北京seo地址
  • 功能多的网站模板 中文内容百度首页关键词推广
  • 现在还有人做网站吗给企业做网站的公司
  • 涂料网站源码商品标题关键词优化
  • 南京网站建设公司有哪些谷歌推广平台
  • 网站上搜索的动图怎么做壁纸网站查询ip
  • 做网站用到哪些软件开发一个平台需要多少钱
  • 政府网站建设申请报告百度网页入口
  • 惠州做网站百度一下就知道手机版
  • 做贷款的网站湖北网站seo