当前位置: 首页 > news >正文

小说推广赚钱吴中seo网站优化软件

小说推广赚钱,吴中seo网站优化软件,阿里wordpress怎么安装,网站开发用什么软件目录: 1.实战讲解(XXTop250完整信息的爬取):1.1 使用之前做的完整的XXTOP250项目,但是设置为只爬取一页(共25个电影),便于观察1.2 配置settings文件中使用scrapy_redis的必要配置,并…

目录:

  • 1.实战讲解(XXTop250完整信息的爬取):
    • 1.1 使用之前做的完整的XXTOP250项目,但是设置为只爬取一页(共25个电影),便于观察
    • 1.2 配置settings文件中使用scrapy_redis的必要配置,并使用公共redsi数据存储区域(通过使用特定管道实现)
    • 1.3 注意:上述settings.py配置中有个可选项SCHEDULER_PERSIST,作用是决定清理还是不清理redis队列:
    • 1.4 但是上面并不能在redis中看到每个请求URL的信息:
    • 1.5 实例实现断点续爬:

1.实战讲解(XXTop250完整信息的爬取):

  • 先用单独一个项目来使用scrapy_redis,讲解一些重要点!

1.1 使用之前做的完整的XXTOP250项目,但是设置为只爬取一页(共25个电影),便于观察

在这里插入图片描述

1.2 配置settings文件中使用scrapy_redis的必要配置,并使用公共redsi数据存储区域(通过使用特定管道实现)

# 第一步:加入以下代码:
#设置scrapy-redis
#1.启用调度将请求存储进redis
from scrapy_redis.scheduler import Scheduler
SCHEDULER="scrapy_redis.scheduler.Scheduler"#2.确保所有spider通过redis共享相同的重复过滤
from scrapy_redis.dupefilter import RFPDupeFilter
DUPEFILTER_CLASS="scrapy_redis.dupefilter.RFPDupeFilter"#3.指定连接到Redis时要使用的主机和端口     目的是连接上redis数据库
REDIS_HOST="localhost"
REDIS_PORT=6379# 不清理redis队列,允许暂停/恢复抓取    (可选)    允许暂停,redis数据不丢失     可以实现断点续爬!!!
SCHEDULER_PERSIST = True# 第二步:开启将数据存储进redis公共区域的管道!
# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {# 'film.pipelines.FilmPipeline': 300,'scrapy_redis.pipelines.RedisPipeline': 100,# 'film.pipelines.DoubanSqlPipeline': 200,
}

1.3 注意:上述settings.py配置中有个可选项SCHEDULER_PERSIST,作用是决定清理还是不清理redis队列:

  • 首先,设置其值为True,允许断点续爬,通过Redis Desktop Manager观察redis中存储数据的公共区域:(会发现,其中有一个是Douban:duperfilter,里面放的是每个请求URL的指纹;一个是Douban:items,里面放的是最终爬取的数据!)

在这里插入图片描述在这里插入图片描述

但是,如果将可选项SCHEDULER_PERSIST的值设为False,不允许断点续爬,观察:(发现只有一个Douban:items,里面放的是最终爬取的数据!而没有每个请求URL的指纹数据!)

在这里插入图片描述

1.4 但是上面并不能在redis中看到每个请求URL的信息:

  • 这是因为每次执行完毕之后,redis中就不存在了,所以,为了观察到scrapy_redis是将每个请求都交给redis的,我们在运行项目一段时间后,强制关闭项目,再来观察redis,会发现:(其中包括了Douban:requests!!!)

在这里插入图片描述

1.5 实例实现断点续爬:

  • 首先,设置SCHEDULER_PERSIST为True,运行框架一会之后立马强制中断!

  • 注意,settings.py中开启存储本地txt数据的管道!
    在这里插入图片描述
    会发现,在本地存储的数据没有25条,这是因为断点续爬,接着之前中断的点继续爬取的:
    在这里插入图片描述

http://www.dinnco.com/news/81800.html

相关文章:

  • 在上海做兼职在哪个网站免费培训课程
  • 怎样免费做自己的网站今天重大新闻事件
  • 最新开的手游传奇网站微指数官网
  • 网站建设的项目方案模板百度官网电话客服24小时
  • h5自适应网站建设免费的舆情网站app
  • 外包公司做网站宜昌网站建设公司
  • 云龙微网站开发百度百家号官网登录
  • 软件开发招标网站网站入口百度
  • 建立一个独立网站多少钱seo建站是什么
  • h5网站制作平台有哪些win10系统优化软件哪个好
  • 代做网站转账截图宣传软文是什么
  • 三台网站建设哪家专业百度权重怎么看
  • 苏州做网站费用网站seo检测工具
  • 网站的js效果代码关键词推广优化排名品牌
  • 长春美容网站建设深圳优化公司统高粱seo
  • 西部数码淘宝怎样优化关键词
  • 会员收费网站怎么做seo主要做哪些工作
  • 建设网站有哪些目的是什么意思百度官网登录
  • 营销网站优化seosem竞价推广托管
  • 微网站 域名百度网盘破解版
  • 衢州市建设工程质量监督站网站郑州seo教程
  • 回忆网站怎么做网络营销的工具有哪些
  • 淮北市11月30日疫情徐州seo排名公司
  • 有没有做武棍的网站网站策划是做什么的
  • 国内互联网前十名的公司网站的seo方案
  • pc网站转wap网站网站开发北京公司
  • 外贸网站建设工作室seo关键词推广渠道
  • 群晖 做网站 Java网站优化及推广方案
  • 免费下载ppt模板网站有哪些app网络推广方案
  • 电脑可以做网站服务器吗网站推广优化外链