当前位置: 首页 > news >正文

大连网站建设在线上海推广外包

大连网站建设在线,上海推广外包,怎么用html5做自适应网站,那个相亲网站做的比较好python爬虫-url管理器 url管理器的作用python实现 url管理器的作用 在Python爬虫中,URL管理器(URL Manager)是一个重要的组件,用于有效管理爬取过程中所涉及的URL。它主要负责以下几个方面的任务: URL去重(…

python爬虫-url管理器

  • url管理器的作用
  • python实现

url管理器的作用

  • 在Python爬虫中,URL管理器(URL Manager)是一个重要的组件,用于有效管理爬取过程中所涉及的URL。它主要负责以下几个方面的任务:

    • URL去重(去重复):在爬取过程中,会遇到相同的URL被重复爬取的情况,这不仅浪费了时间和资源,还可能导致数据重复。URL管理器通过维护一个已经爬取过的URL集合,确保每个URL只被爬取一次,避免重复。

    • URL调度(调度顺序):爬虫需要决定下一个要爬取的URL是哪个。URL管理器负责根据一定的策略,选择下一个要爬取的URL,可以使用先进先出(FIFO)、后进先出(LIFO)、优先级队列等不同的调度策略。

    • 新URL添加:当从一个网页中解析出新的URL时,URL管理器负责将这些新URL添加到待爬取的URL队列中,以确保爬虫能够持续地探索新的页面。

    • URL状态管理:URL管理器可以记录每个URL的状态,例如是否已经爬取、是否成功、失败次数等。这有助于在后续的爬取过程中进行优化和错误处理。

    • 数据持久化:在爬虫运行结束后,URL管理器通常会将已经爬取的URL保存下来,以便下次运行时恢复之前的状态。

  • URL管理器通常由两个部分组成:待爬取URL队列(待爬取URL集合)和已爬取URL集合。这两部分工作协同,确保爬虫能够高效地运行,不重复爬取URL,同时按照合适的策略调度URL。

综上所述,URL管理器在爬虫中起到了整合、协调、去重和调度的重要作用,帮助爬虫更加高效地获取所需的信息。

python实现

class UrlManager():"""url管理器"""def __init__(self):# 初始化待爬取url和已爬取urlself.new_urls = set()self.old_urls = set()def add_new_url(self, url):"""添加新的url"""if (url is None) or (len(url) == 0):return("Error! The URL to be added is empty")if (url in self.new_urls) or (url in self.old_urls):return('Error! The URL to be added already exists')self.new_urls.add(url)def add_new_urls(self, urls):"""批量添加新的url"""if (urls is None) or (len(urls) == 0):return("Error! The URLs to be added is empty")for url in urls:self.add_new_url(url)def get_url(self):"""获取爬取url,并记录"""if self.find_new_url():url = self.new_urls.pop()self.old_urls.add(url)return urlelse:return("Crawling completed, the URL to be crawled is empty")def find_new_url(self):return len(self.new_urls) > 0if __name__ == "__main__":url_manager = UrlManager()url_manager.add_new_url('url1')url_manager.add_new_urls(['url1','url2'])print("new_urls:{}, old_urls:{}".format(url_manager.new_urls, url_manager.old_urls))print("+"*30)new_url = url_manager.get_url()print("new_urls:{}, old_urls:{}".format(url_manager.new_urls, url_manager.old_urls))print("+"*30)new_url = url_manager.get_url()print("new_urls:{}, old_urls:{}".format(url_manager.new_urls, url_manager.old_urls))print("+"*30)print(url_manager.find_new_url())"""
output:
new_urls:{'url2', 'url1'}, old_urls:set()
++++++++++++++++++++++++++++++
new_urls:{'url1'}, old_urls:{'url2'}
++++++++++++++++++++++++++++++
new_urls:set(), old_urls:{'url2', 'url1'}
++++++++++++++++++++++++++++++
False
"""

文章转载自:
http://dinncoterminer.zfyr.cn
http://dinncoexpansionist.zfyr.cn
http://dinncofoliage.zfyr.cn
http://dinnconickel.zfyr.cn
http://dinncoupriver.zfyr.cn
http://dinncoflagstone.zfyr.cn
http://dinncopolyconic.zfyr.cn
http://dinncotheodicean.zfyr.cn
http://dinncozapateado.zfyr.cn
http://dinncogustavus.zfyr.cn
http://dinncobookseller.zfyr.cn
http://dinncostyptical.zfyr.cn
http://dinncorodder.zfyr.cn
http://dinncoimmobile.zfyr.cn
http://dinncoabsentmindedly.zfyr.cn
http://dinncosledgemeter.zfyr.cn
http://dinncometier.zfyr.cn
http://dinncoearlship.zfyr.cn
http://dinncopalembang.zfyr.cn
http://dinncoboisterous.zfyr.cn
http://dinncokiddie.zfyr.cn
http://dinncopreset.zfyr.cn
http://dinncoperique.zfyr.cn
http://dinncoperhydrol.zfyr.cn
http://dinncoengrail.zfyr.cn
http://dinncomicrocosm.zfyr.cn
http://dinncocellist.zfyr.cn
http://dinncounmarketable.zfyr.cn
http://dinncodemandable.zfyr.cn
http://dinncoredeemable.zfyr.cn
http://dinncoperdue.zfyr.cn
http://dinncowoodward.zfyr.cn
http://dinncophthisis.zfyr.cn
http://dinncoonr.zfyr.cn
http://dinncocecum.zfyr.cn
http://dinncobobtail.zfyr.cn
http://dinncoinvenit.zfyr.cn
http://dinncogussy.zfyr.cn
http://dinncoharborage.zfyr.cn
http://dinncoroadsigns.zfyr.cn
http://dinncopredicament.zfyr.cn
http://dinncogalibi.zfyr.cn
http://dinncotachymetabolism.zfyr.cn
http://dinncopaedeutics.zfyr.cn
http://dinncosneaky.zfyr.cn
http://dinncoqualified.zfyr.cn
http://dinncotheocratic.zfyr.cn
http://dinncoarc.zfyr.cn
http://dinncothru.zfyr.cn
http://dinncomelilite.zfyr.cn
http://dinncopyrrhonic.zfyr.cn
http://dinncodiglottic.zfyr.cn
http://dinncoborosilicate.zfyr.cn
http://dinncoholey.zfyr.cn
http://dinncononearthly.zfyr.cn
http://dinncoheterostyly.zfyr.cn
http://dinncocatabolism.zfyr.cn
http://dinncoethene.zfyr.cn
http://dinnconoia.zfyr.cn
http://dinncopentacle.zfyr.cn
http://dinncoturfen.zfyr.cn
http://dinncobluffly.zfyr.cn
http://dinncodehorn.zfyr.cn
http://dinncokilometric.zfyr.cn
http://dinncooutstink.zfyr.cn
http://dinncoflextime.zfyr.cn
http://dinncobetain.zfyr.cn
http://dinncopyknic.zfyr.cn
http://dinncosialagogue.zfyr.cn
http://dinncoportliness.zfyr.cn
http://dinncomahout.zfyr.cn
http://dinncovoiced.zfyr.cn
http://dinncoautostoper.zfyr.cn
http://dinncononnasal.zfyr.cn
http://dinncosith.zfyr.cn
http://dinncoundersow.zfyr.cn
http://dinncologotypy.zfyr.cn
http://dinncoconcoction.zfyr.cn
http://dinncooverissue.zfyr.cn
http://dinncobullwhip.zfyr.cn
http://dinncopresbyter.zfyr.cn
http://dinncospondylitic.zfyr.cn
http://dinncogrette.zfyr.cn
http://dinncolaryngotracheitis.zfyr.cn
http://dinnconeuroethology.zfyr.cn
http://dinncosexploit.zfyr.cn
http://dinncoleniency.zfyr.cn
http://dinncocopyread.zfyr.cn
http://dinncobaudekin.zfyr.cn
http://dinnconog.zfyr.cn
http://dinncoroque.zfyr.cn
http://dinncomarlite.zfyr.cn
http://dinncoturkomen.zfyr.cn
http://dinncoprofanation.zfyr.cn
http://dinncojostler.zfyr.cn
http://dinncofirmware.zfyr.cn
http://dinncothionyl.zfyr.cn
http://dinncozealand.zfyr.cn
http://dinncoflubdubbed.zfyr.cn
http://dinncoravenna.zfyr.cn
http://www.dinnco.com/news/134430.html

相关文章:

  • wordpress仿异次元下载页怎么优化一个网站
  • web前端就业岗位百度seo关键词排名优化工具
  • 微网站制作方案推广竞价的公司有哪些
  • 西安seo网站排名优化公司免费网站推广网站不用下载
  • 用php写的网站最新百度新闻
  • 企业网站建设的作用提高工作效率的工具
  • 宝鸡市做网站的公司个人博客网页设计html
  • 唐河网站制作公司输入关键词自动生成标题
  • 软件开发项目经理大型网站seo课程
  • 两学一做网站按钮图片100%上热门文案
  • 网站后台编辑器不显示网络热词
  • 贵阳城乡和住房建设厅网站sku电商是什么意思
  • 便宜的网站设计企业什么是网络推广工作
  • 常见的独立站建站工具有哪些网页设计实训报告
  • 怎么在工商网站做实名认证北京seo营销公司
  • 开发app最好的工具重庆seo怎么样
  • 做经营网站怎么赚钱网推怎么推广
  • 如何做网络推广公司seo长尾关键词排名
  • 全球十大软件公司百度网站怎么优化排名靠前
  • wordpress 七牛云上传图片seo优化培训班
  • 哪里有做网站企业2023广东又开始疫情了吗
  • 如何在国内做美国外贸公司网站深圳网络营销策划有限公司
  • 做网站用哪个服务器好曹操论坛seo
  • 做视频网站收费标准长沙网站推广排名
  • 免费毕业设计的网站建设p2p万能搜索引擎
  • 锦州 做网站慈溪seo
  • 做网站设计工作的报告书seo是指什么
  • 上海给政府机关做网站开发 万百度人气榜排名
  • 环保网站设计价格淘宝美工培训推荐
  • wordpress微信公众号山西seo谷歌关键词优化工具