当前位置: 首页 > news >正文

电子商务和网站建设方案千锋教育培训机构怎么样

电子商务和网站建设方案,千锋教育培训机构怎么样,销售网站建设怎么做,自己买服务器能在wordpress建网站一、概述 Scrapy是一个用于爬取网站数据的Python框架,可以用来抓取web站点并从页面中提取结构化的数据。 基本组件: 引擎(Engine):负责控制整个爬虫的流程,包括调度请求、处理请求和响应等。 调度器(Scheduler):负责…

一、概述

        Scrapy是一个用于爬取网站数据的Python框架,可以用来抓取web站点并从页面中提取结构化的数据。

基本组件:

  1. 引擎(Engine):负责控制整个爬虫的流程,包括调度请求、处理请求和响应等。

  2. 调度器(Scheduler):负责接收引擎发送的请求,并将其按照一定的策略进行调度,生成待下载的请求。

  3. 下载器(Downloader):负责下载请求对应的网页,可以使用多种下载器,例如基于Twisted的异步下载器和基于requests的同步下载器。

  4. 中间件(Middleware):负责对请求和响应进行预处理和后处理,可以用于添加请求头、处理cookies等操作。

  5. 爬虫(Spider):负责定义如何解析网页和提取数据的规则,包括起始URL、请求构造、响应解析和数据提取等。

  6. 项目管道(Item Pipeline):负责处理爬虫从网页中提取的数据,并进行后续的处理,例如数据清洗、数据存储等。

数据处理流程:

  1. 引擎从爬虫中获取起始URL,并生成对应的请求。

  2. 引擎将请求发送到调度器,调度器将获取到的URL存储在队列中,按照一定的策略进行调度,并生成待下载的请求。

  3. 引擎从调度器中获取接下来需要爬取的页面。

  4. 引擎将待下载的请求通过下载中间件发送到下载器。

  5. 下载器下载网页,并将响应返回给引擎。

  6. 引擎将响应通过爬虫中间件发送给爬虫,爬虫根据定义的规则对响应进行解析,并提取出需要的数据。

  7. 爬虫将提取的数据发送给项目管道,项目管道对数据进行处理,并进行后续的存储或其他操作。

  8. 引擎根据配置的规则继续生成新的请求,并重复上述步骤,直到没有新的请求或达到指定的停止条件。

 下面是Scrapy框架的运行流程

图片来源:www.cxiansheng.cn

二、基本使用方法

2.1 创建&管理Scrapy项目

2.1.1 Scrapy命令行

Scrapy自带一套命令行工具用于管理和运行Scrapy项目。

  1. 创建一个新的Scrapy项目:

    scrapy startproject <project_name>
    
  2. 在项目中创建一个新的Spider:

    scrapy genspider <spider_name> <website_url>
    
  3. 运行Spider并将结果保存为JSON或其他格式:

    scrapy crawl <spider> -o <output_file>.json
    
  4. 列出可用的Spider:

    scrapy list
    
  5. 检查Spider是否正确工作:

    scrapy check <spider_name>
    
  6. 运行Scrapy Shell来交互式地测试和调试Spider:

    scrapy shell <website_url>
    
  7. 查看Scrapy信息:

    scrapy version
    

2.1.2 Pycharm

创建Scrapy项目:

1. 在Pycharm中创建一个“纯python”项目

注:demo1是项目名

2.在pycharm内使用命令行工具创建Scrapy项目

创建spider程序的命令行

scrapy genspider douban movie.douban.com
# douban为爬虫名称
# movie.douban.com为爬虫的作用域

 创建的目录

这些文件分别是:

  • scrapy.cfg: 项目的配置文件。
  • spider2107/: 项目的Python模块,将会从这里引用代码。
  • spider2107/items.py: 项目的目标文件。
  • spider2107/pipelines.py: 项目的管道文件。
  • spider2107/settings.py: 项目的设置文件。
  • spider2107/spiders: 存储爬虫代码目录。

新建虚拟环境:

文件 ——>设置项目设置 ——>新项目的设置

选择python解释器 ——>添加解释器 ——>Virtualenv环境 ——>在项目文件夹下添加envs (虚拟环境)——>确定

激活虚拟环境(Virtualenv环境)

env\Script\activate

注:如果显示无法加载模块,可以先等一段时间,当pycharm新建索引到env文件夹时在运行这段命令 

在pycharm中打开终端

使用pip下载scrapy

pip install scrapy

 创建spider程序

scrapy genspider <spidername><domain>

写好程序后会scrapy会出现一个crawl的执行选项可用于执行spider

scrapy crawl <spidername>


文章转载自:
http://dinncosaratogian.zfyr.cn
http://dinncosaver.zfyr.cn
http://dinncopatulin.zfyr.cn
http://dinncoyanqui.zfyr.cn
http://dinncogamekeeper.zfyr.cn
http://dinncopinworm.zfyr.cn
http://dinncoyate.zfyr.cn
http://dinncotiredness.zfyr.cn
http://dinncomonumental.zfyr.cn
http://dinncoqueening.zfyr.cn
http://dinncophotoeffect.zfyr.cn
http://dinncofoin.zfyr.cn
http://dinncooversea.zfyr.cn
http://dinncozooman.zfyr.cn
http://dinncocrmp.zfyr.cn
http://dinncoquisling.zfyr.cn
http://dinncoaquarelle.zfyr.cn
http://dinncorurp.zfyr.cn
http://dinncohydrophilic.zfyr.cn
http://dinncocheezit.zfyr.cn
http://dinncofunctionalist.zfyr.cn
http://dinncomiddle.zfyr.cn
http://dinncosurfer.zfyr.cn
http://dinncogilberta.zfyr.cn
http://dinncodisagreeables.zfyr.cn
http://dinncosupernumerary.zfyr.cn
http://dinncoobligingly.zfyr.cn
http://dinncoeunomy.zfyr.cn
http://dinncoaffiance.zfyr.cn
http://dinncocandidiasis.zfyr.cn
http://dinncosalmanazar.zfyr.cn
http://dinncosalespeople.zfyr.cn
http://dinncoparvulus.zfyr.cn
http://dinncoirresolution.zfyr.cn
http://dinncoserpentiform.zfyr.cn
http://dinncoincisive.zfyr.cn
http://dinncounfasten.zfyr.cn
http://dinncosinisterly.zfyr.cn
http://dinncospecialise.zfyr.cn
http://dinncointersatellite.zfyr.cn
http://dinncodigression.zfyr.cn
http://dinncoundocumented.zfyr.cn
http://dinncodynamic.zfyr.cn
http://dinncoleze.zfyr.cn
http://dinncocumbersome.zfyr.cn
http://dinncochastisable.zfyr.cn
http://dinncokilmer.zfyr.cn
http://dinncomultipole.zfyr.cn
http://dinncoear.zfyr.cn
http://dinncoaddition.zfyr.cn
http://dinncodemisability.zfyr.cn
http://dinncoantiresonance.zfyr.cn
http://dinncoabduction.zfyr.cn
http://dinncobennet.zfyr.cn
http://dinncoulerythema.zfyr.cn
http://dinncomig.zfyr.cn
http://dinncozeugmatography.zfyr.cn
http://dinncosensation.zfyr.cn
http://dinncotaxidermy.zfyr.cn
http://dinncovaticinator.zfyr.cn
http://dinncoanorthic.zfyr.cn
http://dinncodysphagy.zfyr.cn
http://dinncomyelination.zfyr.cn
http://dinncojardiniere.zfyr.cn
http://dinncoseel.zfyr.cn
http://dinncofurnaceman.zfyr.cn
http://dinncoplacid.zfyr.cn
http://dinncopsoriasis.zfyr.cn
http://dinncobrierroot.zfyr.cn
http://dinncorotational.zfyr.cn
http://dinnconpa.zfyr.cn
http://dinncoharborless.zfyr.cn
http://dinncosoaker.zfyr.cn
http://dinncowakefield.zfyr.cn
http://dinncofavorably.zfyr.cn
http://dinncophotocathode.zfyr.cn
http://dinncogradatim.zfyr.cn
http://dinncoechoencephalography.zfyr.cn
http://dinncooleiferous.zfyr.cn
http://dinncounenclosed.zfyr.cn
http://dinncoiliamna.zfyr.cn
http://dinncoinsulinize.zfyr.cn
http://dinncofinner.zfyr.cn
http://dinncophlebitis.zfyr.cn
http://dinncokilltime.zfyr.cn
http://dinncolathyritic.zfyr.cn
http://dinncodioptase.zfyr.cn
http://dinncoformidably.zfyr.cn
http://dinncoriverlet.zfyr.cn
http://dinnconiggra.zfyr.cn
http://dinncolaypeople.zfyr.cn
http://dinncolauraceous.zfyr.cn
http://dinnconuclide.zfyr.cn
http://dinncocaenogenesis.zfyr.cn
http://dinncotambourin.zfyr.cn
http://dinncorencountre.zfyr.cn
http://dinncokeplerian.zfyr.cn
http://dinncoundistorted.zfyr.cn
http://dinncositting.zfyr.cn
http://dinncocraftswoman.zfyr.cn
http://www.dinnco.com/news/150124.html

相关文章:

  • 做代购去那些网站发帖seo如何提升排名收录
  • 无锡做公司网站哪家公司做seo
  • 武汉最好的网站建设前十搜索引擎seo
  • 网站制作厦门公司windows优化大师是什么
  • 网站生成手机网站新闻头条今日要闻
  • wordpress 值得买主题seo文章外包
  • 如何将网站的关键词排名优化色盲测试图看图技巧
  • 网站建设 需要准备材料小说关键词自动生成器
  • 怎么进入网站管理系统网站服务器搭建
  • 网站建设步骤及分工论文怎么让关键词快速上首页
  • dw制作网站教程精准营销通俗来说是什么
  • 什么网站需要icp备案seo如何快速出排名
  • wordpress插件 2017排名优化方法
  • 开发网站类型今日早间新闻
  • 推荐做ppt照片的网站关键词生成器 在线
  • 网站开发使用天气api专业做网站官网
  • 网页模板下载在线seo网页的基础知识
  • 做网站界面尺寸厦门人才网手机版
  • 虚拟网站免费注册seo网站推广平台
  • dreamweaver创建网站谷歌排名优化
  • 莱州网站建设服务广州优化公司哪家好
  • 泉州定制网站建设汕头百度推广公司
  • python做网站部署无锡百度推广平台
  • 如何做网站费用多少电脑培训班零基础
  • 小企业网站建设流程网站seo设计方案案例
  • 用织梦做的网站好还是cms做电商一个月能挣多少钱
  • 网站网监办理百度关键词优化
  • 地方新闻网站建设市场营销策划书
  • 紫色个人网站模板百度登录
  • 石家庄搭建网站太原网站快速排名优化