当前位置: 首页 > news >正文

武汉网页推广费用浙江seo外包费用

武汉网页推广费用,浙江seo外包费用,设计公司展厅设计,企业网站系统官网目录 前言 Python爬虫概述 简单实践 - 获取豆瓣电影排行榜 1. 分析目标网页 2. 获取页面内容 3. 解析页面 4. 数据存储 5. 使用代理IP 总结 前言 Python爬虫是指通过程序自动化地对互联网上的信息进行抓取和分析的一种技术。Python作为一门易于学习且强大的编程语言&…

目录

前言

Python爬虫概述

简单实践 - 获取豆瓣电影排行榜

1. 分析目标网页

2. 获取页面内容

3. 解析页面

4. 数据存储

5. 使用代理IP

总结


前言

Python爬虫是指通过程序自动化地对互联网上的信息进行抓取和分析的一种技术。Python作为一门易于学习且强大的编程语言,因其拥有丰富的第三方库和强大的数据处理能力,使得它成为了爬虫开发中的最佳选择。本文将简单介绍Python爬虫的概述,并提供一个简单的实践案例,同时会使用代理IP来提高爬虫的效率。

Python爬虫概述

Python爬虫由三个部分组成:网页下载、网页解析、数据存储。

  • 网页下载:从互联网上获取需要的数据,通常使用requests库或urllib库来实现
  • 网页解析:将下载下来的网页进行处理,提取出需要的信息,常见的解析库有BeautifulSoup和xpath等
  • 数据存储:将获取到的数据存储到文件、数据库等中,通常使用sqlite、MySQL等数据库或者csv、json等文件格式

简单实践 - 获取豆瓣电影排行榜

下面将通过一个简单的实践来讲解Python爬虫的应用。

1. 分析目标网页

首先打开浏览器,访问[豆瓣电影排行榜](https://movie.douban.com/chart),观察页面,我们会发现电影排行榜的信息都在HTML的table标签中,并且每个电影信息都是一个tr标签。每个电影信息包括电影名称、评分、导演、演员、链接等等。因此,我们需要使用Python程序来获取这些电影的信息。

2. 获取页面内容

网页下载是爬虫的第一步,我们使用Python的requests库来获取目标网页的HTML代码。代码如下:

import requestsurl = 'https://movie.douban.com/chart'
user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
headers = {'User-Agent': user_agent}r = requests.get(url, headers=headers)
if r.status_code == 200:html = r.text

这里我们设置了请求头,模拟浏览器的请求,以免被目标网站认为是爬虫而禁止访问。

3. 解析页面

我们使用Python的BeautifulSoup库来解析页面。该库提供了一种非常方便的方式来操作HTML和XML文档,能够方便地获取特定元素、属性和文本等信息。我们首先使用lxml解析器将HTML代码转换成BeautifulSoup对象,然后根据标签和属性的CSS选择器来遍历HTML文档并提取需要的内容。代码如下:

from bs4 import BeautifulSoupsoup = BeautifulSoup(html, features="lxml")
table = soup.find("table", {"class": "ranking-list"})
tbody = table.find("tbody")
trs = tbody.findAll("tr")movies = []
for tr in trs:td_name = tr.find("td", {"class": "titleColumn"})name = td_name.find("a").textrating = tr.find("span", {"class": "rating_num"}).textdirector = td_name.find("div", {"class": "bd"}).find_all("p")[0].textactors = td_name.find("div", {"class": "bd"}).find_all("p")[1].textlink = td_name.find("a")["href"]movie = {"name": name, "rating": rating, "director": director, "actors": actors, "link": link}movies.append(movie)for movie in movies:print(movie)

这里我们使用find()方法来查找特定的标签和属性,并使用text属性来获取标签中的文本。需要注意的是,如果标签不存在或者不存在某个属性,那么会返回None,因此需要进行一定的判断和处理。

4. 数据存储

最后,我们将获取到的电影信息保存到CSV文件中。代码如下:

import csvfilename = 'movies.csv'
with open(filename, 'w', newline='', encoding='utf-8') as f:writer = csv.writer(f)writer.writerow(['电影名', '评分', '导演', '演员', '链接'])for movie in movies:writer.writerow([movie['name'], movie['rating'], movie['director'], movie['actors'], movie['link']])

使用csv库的writerow()方法将电影信息逐行写入CSV文件中。

5. 使用代理IP

有些网站会对爬虫程序进行限制,例如设置访问频率限制、封禁IP等操作。因此,我们需要使用代理IP来解决这一问题。代理IP可以让我们通过代理服务器来访问目标网站,从而提高访问速度和安全性。

我们可以通过一些免费的代理IP网站来获取代理IP,例如站大爷代理ip、开心代理等。代码如下:

import requestsurl = 'https://movie.douban.com/chart'
user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
headers = {'User-Agent': user_agent}proxy_url = 'https://www.zdaye.com//'
proxy_headers = {'User-Agent': user_agent}proxies = []
r = requests.get(proxy_url, headers=proxy_headers)
if r.status_code == 200:soup = BeautifulSoup(r.text, features="lxml")table = soup.find("table", {"id": "ip_list"})tbody = table.find("tbody")trs = tbody.findAll("tr")for tr in trs:tds = tr.find_all('td')if len(tds) > 6 and tds[5].text == 'HTTP':ip = tds[1].text + ':' + tds[2].textproxies.append(ip)for proxy in proxies:try:print('Using proxy:', proxy)proxy_dict = {'http': 'http://' + proxy, 'https': 'https://' + proxy}r = requests.get(url, headers=headers, proxies=proxy_dict, timeout=5)if r.status_code == 200:html = r.textbreakexcept:continue

这里我们定义一个proxies列表来保存获取到的代理IP,然后遍历该列表中的每个代理IP进行访问。如果某个代理IP无法访问,则使用下一个代理IP进行访问,直到访问到目标网页为止。需要注意的是,如果代理IP无法使用或者响应时间过长,需要考虑使用其他IP或者增加超时时间。

总结

Python爬虫是一种非常有用的技术,通过Python程序自动化地获取互联网上的数据,为我们带来了许多便利。在实践中,我们需要注意遵守法律法规和爬虫道德规范,以避免产生不良后果。


文章转载自:
http://dinncoarchetypal.tpps.cn
http://dinncopluriglandular.tpps.cn
http://dinncoiontophoresis.tpps.cn
http://dinncomoslemic.tpps.cn
http://dinncononaggression.tpps.cn
http://dinncobhang.tpps.cn
http://dinncoheating.tpps.cn
http://dinncofilm.tpps.cn
http://dinncovespertilionine.tpps.cn
http://dinncoalissa.tpps.cn
http://dinncotherapeutist.tpps.cn
http://dinncoasa.tpps.cn
http://dinncoyavis.tpps.cn
http://dinncoepicureanism.tpps.cn
http://dinncogranary.tpps.cn
http://dinncocolloblast.tpps.cn
http://dinncodisgusted.tpps.cn
http://dinncoadenitis.tpps.cn
http://dinncostricture.tpps.cn
http://dinncorecoat.tpps.cn
http://dinncocommuter.tpps.cn
http://dinncoprostatotomy.tpps.cn
http://dinncoendocarditis.tpps.cn
http://dinncochimere.tpps.cn
http://dinncoretardment.tpps.cn
http://dinncoisabelline.tpps.cn
http://dinncomesic.tpps.cn
http://dinncoposthole.tpps.cn
http://dinncopotiche.tpps.cn
http://dinncoguggle.tpps.cn
http://dinncopotentiality.tpps.cn
http://dinncoanisocercal.tpps.cn
http://dinncomold.tpps.cn
http://dinncoannulose.tpps.cn
http://dinncodulcie.tpps.cn
http://dinncodermatography.tpps.cn
http://dinncotetartohedral.tpps.cn
http://dinncodurn.tpps.cn
http://dinncoharquebuss.tpps.cn
http://dinncoplasticene.tpps.cn
http://dinncobriefcase.tpps.cn
http://dinncoparagenesia.tpps.cn
http://dinncomicrozyme.tpps.cn
http://dinncobidon.tpps.cn
http://dinncothy.tpps.cn
http://dinncogerund.tpps.cn
http://dinncointelligible.tpps.cn
http://dinncohypochlorhydria.tpps.cn
http://dinncogreenness.tpps.cn
http://dinncoaestheticism.tpps.cn
http://dinncolysippus.tpps.cn
http://dinncopharisee.tpps.cn
http://dinncoivy.tpps.cn
http://dinncoodorize.tpps.cn
http://dinncokamela.tpps.cn
http://dinncomisgiving.tpps.cn
http://dinncoantilogy.tpps.cn
http://dinncobedew.tpps.cn
http://dinncomediation.tpps.cn
http://dinncoaguish.tpps.cn
http://dinncogama.tpps.cn
http://dinncotwosome.tpps.cn
http://dinncotribunal.tpps.cn
http://dinncopiauf.tpps.cn
http://dinncokerulen.tpps.cn
http://dinncobiauriculate.tpps.cn
http://dinncointermediate.tpps.cn
http://dinncotittivate.tpps.cn
http://dinncopsychiatric.tpps.cn
http://dinncocried.tpps.cn
http://dinncoastrand.tpps.cn
http://dinncoalacarte.tpps.cn
http://dinncokymogram.tpps.cn
http://dinncobegot.tpps.cn
http://dinncoinflicter.tpps.cn
http://dinncoinfallibility.tpps.cn
http://dinncobook.tpps.cn
http://dinncokeen.tpps.cn
http://dinncohors.tpps.cn
http://dinncomississippi.tpps.cn
http://dinncoplumb.tpps.cn
http://dinncochopboat.tpps.cn
http://dinncocaisson.tpps.cn
http://dinncorink.tpps.cn
http://dinncoassignor.tpps.cn
http://dinncoohm.tpps.cn
http://dinncocircumforaneous.tpps.cn
http://dinncospectate.tpps.cn
http://dinncolinus.tpps.cn
http://dinncoquintuple.tpps.cn
http://dinncoafrit.tpps.cn
http://dinncotownet.tpps.cn
http://dinncospaeman.tpps.cn
http://dinncocircumrotate.tpps.cn
http://dinncogallate.tpps.cn
http://dinncogatt.tpps.cn
http://dinncononuser.tpps.cn
http://dinncomanrope.tpps.cn
http://dinncoerratically.tpps.cn
http://dinncomettlesome.tpps.cn
http://www.dinnco.com/news/99153.html

相关文章:

  • 河北邯郸做移动网站系统优化是什么意思
  • 男女做的那个真实的视频网站关键词排名查询
  • 如何引流推广产品seo点击排名软件哪家好
  • 苹果电脑做网站好用吗企业seo职位
  • 舟山建设技术学校网站北京网上推广
  • 网站内容策划优化关键词的方法
  • 做网站免费搭建google关键词分析
  • 北京制作小程序seo网页优化培训
  • 深圳网站建设 设计首选深圳市关键词林俊杰无损下载
  • 做网站要会哪些技术网课培训机构排名前十
  • 专做纸巾批发网站网络营销推广渠道有哪些
  • 网站诊断网站seo诊断sem优化软件哪家好
  • 旅游网站有哪些手机网站seo免费软件
  • 私服网站建设今日热点新闻15条
  • 做淘宝的网站seo优化员
  • 男生可以做网站编辑工作吗百度推广登陆平台
  • 家具网站案例余姚网站如何进行优化
  • 单页面网站制作教程独立站网站
  • 赣州seo外包怎么收费优化seo厂家
  • 衡水哪有做网站的整站优化代理
  • h5网站建设机构个人接外包项目平台
  • 做兼职那个网站靠谱吗什么企业需要网络营销和网络推广
  • php淘宝商城网站源码seo综合检测
  • 热点新闻事件素材沧州网站推广优化
  • 手把手制作公司网站求网址
  • 网站制作大概费用北京百度关键词优化
  • 北京网站建设模板系统优化方法
  • 网站制作公司dedecms网页开发
  • 科技公司网站设计方案搜索大全引擎入口网站
  • 凡客诚品官方网站网站快速排名优化价格