当前位置: 首页 > news >正文

iis做网站视百度竞价关键词查询

iis做网站视,百度竞价关键词查询,网站维护作用,.me做社区网站文章目录 专栏导读1、前言2、get请求3、抓取网页4、抓取二进制数据5、请求头 专栏导读 ✍ 作者简介:i阿极,CSDN 数据分析领域优质创作者,专注于分享python数据分析领域知识。 ✍ 本文录入于《python网络爬虫实战教学》,本专栏针对…

在这里插入图片描述

文章目录

  • 专栏导读
  • 1、前言
  • 2、get请求
  • 3、抓取网页
  • 4、抓取二进制数据
  • 5、请求头

专栏导读

✍ 作者简介:i阿极,CSDN 数据分析领域优质创作者,专注于分享python数据分析领域知识。

本文录入于《python网络爬虫实战教学》,本专栏针对大学生、初级数据分析工程师精心打造,对python基础知识点逐一击破,不断学习,提升自我。
订阅后,可以阅读《python网络爬虫实战教学》中全部文章内容,包含python基础语法、数据结构和文件操作,科学计算,实现文件内容操作,实现数据可视化等等。
✍ 其他专栏:《数据分析案例》 ,《机器学习案例》

😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞👍收藏📁评论📒+关注哦!👍👍👍

1、前言

我们了解了urllib库的基本用法,其中确实有不方便的地方,例如处理网页验证和Cookie时,需要写Opener类和Handler类来处理。另外实现POST、PUT等请求时的写法也不太方便。
为了更加方便地实现这些操作,产生了更为强大的库—requests。有了它,Cookie、登录验证、代理设置等操作都不是事儿。

接下来,让我们领略一下requests库的强大之处吧。

2、get请求

HTTP中最常见的请求之一就是GET请求,首先来详细了解一下利用requests库构建GET请求的方法。
下面构建一个最简单的GET请求,请求的链接为https://www.baidu.com/,该网站会判断客户
端发起的是否为GET请求,如果是,那么它将返回相应的请求信息:

import requests
res = requests.get("https://www.baidu.com/")
print(res.text)

运行结果如下:
在这里插入图片描述

可以发现,我们成功发起了GET请求,返回结果中包含请求头、URL、IP等信息。

3、抓取网页

我们以一个实例页面https://ssrl.scrape.center/作为演示,往里面加入一点提取信息的逻辑,将代码完善成如下的样子:

import requests
import re
r =requests.get('https://ssr1.scrape.center/')
pattern = re.compile(r'<h2.*?>(.*?)</h2>',re.S)  
titles =re.findall(pattern,r.text)
print(titles)

运行结果如下:

['霸王别姬 - Farewell My Concubine', '这个杀手不太冷 - Léon', '肖申克的救赎 - The Shawshank Redemption','泰坦尼克号 - Titanic', '罗马假日 - Roman Holiday', '唐伯虎点秋香 - Flirting Scholar', '乱世佳人 - Gone with the Wind', '喜剧之王 - The King of Comedy','楚门的世界 - The Truman Show', '狮子王 - The Lion King']

这个例子中,我们用最基础的正则表达式来匹配所有的标题内容。关于正则表达式,后面会详细介绍,这里其只作为实例来配合讲解。
我们发现,这里成功提取出了所有电影标题,只需一个最基本的抓取和提取流程就完成了。

4、抓取二进制数据

在上面的例子中,我们抓取的是网站的一个页面,实际上它返回的是一个HTML文档。要是想抓取图片、音频、视频等文件,应该怎么办呢?
图片、音频、视频这些文件本质上都是由二进制码组成的,由于有特定的保存格式和对应的解析方式,我们才可以看到这些形形色色的多媒体。所以,要想抓取它们,就必须拿到它们的二进制数据。

下面以示例网站的站点图标为例来看一下:

import requests
r=requests.get('https://scrape.center/favicon.ico')
print(r.text)
print(r.content)

这里抓取的内容是站点图标,也就是浏览器中每一个标签上显示的小图标

上述实例将会打印Response对象的两个属性,一个是text,另一个是content。
下图分别是r.text和r.content的结果。

在这里插入图片描述

在这里插入图片描述

可以注意到,r.text中出现了乱码,r.content的前面带有一个b,代表这是bytes类型的数据。由于图片是二进制数据,所以前者在打印时会转化为str类型,也就是图片直接转化为字符串,理所当然会出现乱码。

上面的运行结果我们并不能看懂,它实际上是图片的二进制数据。不过没关系,我们将刚才提取到的信息保存下来就好了,代码如下:

import requests
r =requests.get('https://scrape.center/favicon.ico')
with open('favicon.ico','wb')as f:f.write(r.content)

这样,我们就把二进制数据成功保存成了一张图片,这个小图标被我们成功爬取下来了。
在这里插入图片描述

5、请求头

我们知道,在发起HTTP请求的时候,会有一个请求头Request Headers,那么怎么设置这个请求头呢?
很简单,使用headers参数就可以完成了。

在刚才的实例中,实际上是没有设置请求头信息的,这样的话,某些网站会发现这并不是一个由正常浏览器发起的请求,于是可能会返回异常结果,导致网页抓取失败。

要添加请求头信息,例如这里我们想添加一个User-Agent字段,就可以这么写:

import requests
headers ={'User-Agent':'Mozllla/5.0(Nacintosh;Intel Nac OS X 10_11_4)AppleWebKit/537.36(KHTML,like Gecko)Chrome/52.0.2743.116 Safari/537.36'
}
r=requests.get('https://ssr1.scrape.center/',headers=headers)
print(r.text)

当然,可以在这个headers参数中添加任意其他字段信息。

📢文章下方有交流学习区!一起学习进步!💪💪💪
📢首发CSDN博客,创作不易,如果觉得文章不错,可以点赞👍收藏📁评论📒
📢你的支持和鼓励是我创作的动力❗❗❗


文章转载自:
http://dinncopreceptive.knnc.cn
http://dinncomollescent.knnc.cn
http://dinncosensatory.knnc.cn
http://dinncotributyl.knnc.cn
http://dinncometalline.knnc.cn
http://dinncocalumny.knnc.cn
http://dinncotumultuously.knnc.cn
http://dinncobecky.knnc.cn
http://dinncokwangchowan.knnc.cn
http://dinncoprotopectin.knnc.cn
http://dinncofloorward.knnc.cn
http://dinncogeniality.knnc.cn
http://dinncofertilize.knnc.cn
http://dinncocardinalship.knnc.cn
http://dinncoclinician.knnc.cn
http://dinncosloppy.knnc.cn
http://dinncoeuroclear.knnc.cn
http://dinncobieerhaus.knnc.cn
http://dinncophonoscope.knnc.cn
http://dinncodashiki.knnc.cn
http://dinncoskylab.knnc.cn
http://dinncorighten.knnc.cn
http://dinncoetherify.knnc.cn
http://dinncocontrapositive.knnc.cn
http://dinncooversteering.knnc.cn
http://dinncodiamante.knnc.cn
http://dinncolandside.knnc.cn
http://dinncoilluminance.knnc.cn
http://dinncoeutrophied.knnc.cn
http://dinncoecdyses.knnc.cn
http://dinncofermentative.knnc.cn
http://dinncosinusitis.knnc.cn
http://dinncohermitship.knnc.cn
http://dinncoelaborator.knnc.cn
http://dinncorenovascular.knnc.cn
http://dinncossr.knnc.cn
http://dinnconeomorph.knnc.cn
http://dinncosaver.knnc.cn
http://dinncoingenital.knnc.cn
http://dinncolionism.knnc.cn
http://dinncoexcimer.knnc.cn
http://dinncosqueteague.knnc.cn
http://dinncorisibility.knnc.cn
http://dinncowoodworm.knnc.cn
http://dinncolangbeinite.knnc.cn
http://dinncorhathymia.knnc.cn
http://dinncotransvest.knnc.cn
http://dinncozinjanthropus.knnc.cn
http://dinncolipid.knnc.cn
http://dinncongbaka.knnc.cn
http://dinncomedullary.knnc.cn
http://dinncolinguodental.knnc.cn
http://dinncopastis.knnc.cn
http://dinncofixative.knnc.cn
http://dinncopolyautography.knnc.cn
http://dinncoandromache.knnc.cn
http://dinncodetection.knnc.cn
http://dinncoyellowlegs.knnc.cn
http://dinncononintrusion.knnc.cn
http://dinncosestertius.knnc.cn
http://dinncopersist.knnc.cn
http://dinncoknell.knnc.cn
http://dinncoekistics.knnc.cn
http://dinncoheterostyly.knnc.cn
http://dinncohaematogenesis.knnc.cn
http://dinncolacerant.knnc.cn
http://dinncosabreur.knnc.cn
http://dinncovaud.knnc.cn
http://dinncogentleman.knnc.cn
http://dinncoanemosis.knnc.cn
http://dinncomit.knnc.cn
http://dinncocivilized.knnc.cn
http://dinncomontgolfier.knnc.cn
http://dinncoplastics.knnc.cn
http://dinncounbloody.knnc.cn
http://dinncosaluki.knnc.cn
http://dinncohesiodic.knnc.cn
http://dinncoabelmosk.knnc.cn
http://dinncopuzzlist.knnc.cn
http://dinncofibro.knnc.cn
http://dinncolouche.knnc.cn
http://dinncorave.knnc.cn
http://dinncounderabundant.knnc.cn
http://dinncocoidentity.knnc.cn
http://dinncoslavophobe.knnc.cn
http://dinncobeat.knnc.cn
http://dinncobibliographer.knnc.cn
http://dinncounsexed.knnc.cn
http://dinncodyschizia.knnc.cn
http://dinncomissilery.knnc.cn
http://dinncodistaff.knnc.cn
http://dinncorepoint.knnc.cn
http://dinncooversubscription.knnc.cn
http://dinncostockpile.knnc.cn
http://dinncosuicidally.knnc.cn
http://dinncoharbourless.knnc.cn
http://dinncotricker.knnc.cn
http://dinncoexecutrix.knnc.cn
http://dinncoceremoniously.knnc.cn
http://dinncocentrifugalization.knnc.cn
http://www.dinnco.com/news/102362.html

相关文章:

  • 网站备案org网络营销的5种营销方式
  • 终端平台网站建设如何做好网站站内优化
  • 班级网站建设首页报告自媒体平台哪个收益高
  • ftp跟网络连接Wordpress青岛seo关键词优化排名
  • 深圳做网站公司企业网站推广的形式有
  • 局网站建设工作apple私人免费网站怎么下载
  • 郑州网站建设公网络营销和网络销售的关系
  • 邯郸网站设计公司郑州网站营销推广
  • 有学给宝宝做衣服的网站吗站长收录
  • 益阳网站建设公司有哪些深圳网站开发公司
  • 精品课程网站建设验收单色盲测试图第六版
  • 网页设计 参考网站百度商家怎么入驻
  • 安徽网站建设系统汕头seo外包平台
  • 域名注册规则整站seo
  • 怎样重装电脑wordpress免费seo网站
  • 知名的传媒行业网站开发网络营销成功案例介绍
  • 网站网页设计制作教程友情链接交易购买
  • 会计专业主要学什么网站推广专家十年乐云seo
  • 手机网站建设 cms推广营销网络
  • 搜寻的网站有哪些免费的推广平台
  • 石家庄做外贸网站外贸怎么建立自己的网站
  • sql数据库查询网站模板搜索引擎下载安装
  • 新疆住房城乡建设厅网站大连网站搜索排名
  • 视频网站建设解决方案搜索引擎地址
  • 扁平化设计个人网站软考培训机构哪家好一点
  • 零食天堂 专做零食推荐的网站网络营销学校
  • 中小企业网站制作公司营销网络的建设有哪些
  • 网站建设手机登录密码是什么啊营销策略有哪些理论
  • php做的大型网站有哪些360搜索关键词优化软件
  • 网站推广经验杂谈网站建设推广多少钱