当前位置: 首页 > news >正文

做网站开通手机验证功能宁德市政府

做网站开通手机验证功能,宁德市政府,网站做赌博词怎么推广,设计之家图片欣赏本节内容主要为: (1)创建数据库 (2)创建数据库表 (3)爬取数据进MYSQL库 1 新建数据库 使用MYSQL数据库存储数据,创建一个新的数据库 create database scrapy_demo;2 新建数据表 CR…
  • 本节内容主要为:
    (1)创建数据库
    (2)创建数据库表
    (3)爬取数据进MYSQL库

1 新建数据库

使用MYSQL数据库存储数据,创建一个新的数据库

create database scrapy_demo;

2 新建数据表


CREATE TABLE tb_tour (id INT AUTO_INCREMENT PRIMARY KEY COMMENT '自增主键',title VARCHAR(255) NOT NULL COMMENT '景点标题',title_en VARCHAR(255) COMMENT '景点英文标题',img VARCHAR(255) COMMENT '景点图片链接',score FLOAT COMMENT '景点评分',comments int COMMENT '景点评分数量',comment_url VARCHAR(255) COMMENT '评论链接',rank_title VARCHAR(255) COMMENT '排名标题',ranks INT COMMENT '景点排名',select_user VARCHAR(255) COMMENT '精选评论用户头像',select_comment TEXT COMMENT '精选评论'
);

3 增加常量

因为我们的表中新增了国家和城市的字段,程序中可以通过常量传递过去,新增一个constant.py。

NATION = "日本"
CITY = "东京"

4 修改爬虫

爬虫qiongyou_3.py 有2处修改,第一是指明驱动存储的路径。

    def __init__(self, *args, **kwargs):super(QiongyouSpider, self).__init__(*args, **kwargs)options = webdriver.ChromeOptions()# 这行代码是用于设置 Chrome 浏览器的选项。--headless 参数表示以无头模式(无 GUI 界面)运行 Chrome 浏览器。# 无头模式下,浏览器运行在后台,不会显示任何图形界面,从而能够提高爬取效率和性能。这在服务器环境中非常有用,因为服务器通常没有图形界面。options.add_argument('--headless')LOGGER.setLevel(logging.WARNING)# 这行代码是用于指定 ChromeDriver 的路径。ChromeDriver 是 Selenium 用于控制 Chrome 浏览器的驱动程序。service = Service('/usr/local/bin/chromedriver')self.driver = webdriver.Chrome(options=options, service=service)  # 替换为 ChromeDriver 的实际路径

第二是对解析页面的时候新增城市和国家字段,引入这2个常量就可以了。

item['city'] = CITY
item['nation'] = NATION

5 修改pipelines

由于我们改造成MYSQL存储数据了,因此修改原来的管道类,只需要改个名字:

# 保存excel
class TourFilePipeline:

我们新增的管道类还是用原来的名字,这样在配置文件中就不需要修改了,在这边也可以看到scrapy的设计,如果说我们想切换会保存excel ,只需要改配置文件就可以,是不需要改代码的,下面给出我们新增的管道类。

安装pymysql

pip install pymysql

编写管道类

import pymysql
import json# 保存mysql
class TourPipeline:def __init__(self):# 连接 MySQL 数据库self.db = pymysql.connect(host="localhost",user="root",password="***",database="scrapy_demo",charset="utf8")self.cursor = self.db.cursor()def process_item(self, item, spider):# 检查数据是否已存在sql = "SELECT COUNT(*) FROM tb_tour WHERE title = %s"self.cursor.execute(sql, (item["title"],))count = self.cursor.fetchone()[0]if count > 0:spider.log(f"Data already exists: {item['title']}")return item# 插入新数据sql = ("INSERT INTO tb_tour (title, title_en, img, score, comments, comment_url,"" rank_title, ranks, select_user, select_comment, nation, city) ""VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)")values = (item["title"],item["title_en"],item["img"],item["score"],item["comment"],item["comment_url"],item["rank_title"],item["rank"],item["select_user"],item["select_comment"],item["nation"],item["city"])try:self.cursor.execute(sql, values)self.db.commit()spider.log(f"Saved data: {item['title']}")except pymysql.Error as e:self.db.rollback()spider.log(f"Error saving data: {item['title']} - {e}")return itemdef close_spider(self, spider):self.cursor.close()self.db.close()

6 运行爬虫

和上一期一样的运行方式

scrapy crawl qys3

可以看到存储到MYSQL的效果
在这里插入图片描述

7 小结

通过四期的内容我们完成了如下内容:

  • 利用scrapy框架爬取【东京】景区列表页面进行html保存
  • scrapy + selenium 实现动态页面翻页
  • 解析景区数据存储到excel文件
  • 解析景区数据存储到MySQL数据库

后续这个系列还会更新的内容有:

  • 断点续爬功能的研究和实战
  • 图片下载到本地保存
  • 爬取景点评论 \ 景点详情页面
  • 结合爬取的数据搭建前后端分离的数据分析可视化系统

欢迎大家收藏关注!


文章转载自:
http://dinncopiccalilli.tpps.cn
http://dinncobonavacantia.tpps.cn
http://dinncorepot.tpps.cn
http://dinncoallopolyploidy.tpps.cn
http://dinncodeduct.tpps.cn
http://dinncofruiter.tpps.cn
http://dinncoexpiscate.tpps.cn
http://dinncokleig.tpps.cn
http://dinncoacrogen.tpps.cn
http://dinncoazov.tpps.cn
http://dinncosquareness.tpps.cn
http://dinncoforequarter.tpps.cn
http://dinncoswoose.tpps.cn
http://dinncoineluctability.tpps.cn
http://dinncosubstitute.tpps.cn
http://dinncoauckland.tpps.cn
http://dinncolithophilous.tpps.cn
http://dinncobellmouthed.tpps.cn
http://dinncowarta.tpps.cn
http://dinnconeedlework.tpps.cn
http://dinncolenis.tpps.cn
http://dinncoseminomata.tpps.cn
http://dinnconebuly.tpps.cn
http://dinncovijayavada.tpps.cn
http://dinncocoalescence.tpps.cn
http://dinncoiodopsin.tpps.cn
http://dinncodiplomaed.tpps.cn
http://dinncocashbox.tpps.cn
http://dinncofuss.tpps.cn
http://dinncorodrigues.tpps.cn
http://dinncopiripiri.tpps.cn
http://dinncopastina.tpps.cn
http://dinncoguinzo.tpps.cn
http://dinncomisbeseem.tpps.cn
http://dinncoheterotaxis.tpps.cn
http://dinncobas.tpps.cn
http://dinncobeeper.tpps.cn
http://dinncoultramarine.tpps.cn
http://dinncolatvia.tpps.cn
http://dinncoradiomimetic.tpps.cn
http://dinncoturkey.tpps.cn
http://dinncocroup.tpps.cn
http://dinncoskipjack.tpps.cn
http://dinncoeremophilous.tpps.cn
http://dinncomistflower.tpps.cn
http://dinncofranking.tpps.cn
http://dinncopentanol.tpps.cn
http://dinncotarnation.tpps.cn
http://dinncooast.tpps.cn
http://dinncoctrl.tpps.cn
http://dinncoorgastic.tpps.cn
http://dinncoamateurism.tpps.cn
http://dinncoextroverted.tpps.cn
http://dinncoreprovingly.tpps.cn
http://dinncoshazam.tpps.cn
http://dinncotafferel.tpps.cn
http://dinncobaba.tpps.cn
http://dinncounpolarized.tpps.cn
http://dinncoindite.tpps.cn
http://dinncocarmelite.tpps.cn
http://dinncolibidinous.tpps.cn
http://dinncoantler.tpps.cn
http://dinncoinductivism.tpps.cn
http://dinncounsophisticate.tpps.cn
http://dinncopedigree.tpps.cn
http://dinncowastefully.tpps.cn
http://dinncomat.tpps.cn
http://dinncoastrionics.tpps.cn
http://dinncowinfield.tpps.cn
http://dinncochannelize.tpps.cn
http://dinncokornberg.tpps.cn
http://dinncoxylotomy.tpps.cn
http://dinncostepper.tpps.cn
http://dinncoboreen.tpps.cn
http://dinncoseafront.tpps.cn
http://dinncohobart.tpps.cn
http://dinncopulka.tpps.cn
http://dinncoeasy.tpps.cn
http://dinncoexhibitor.tpps.cn
http://dinncounderproduce.tpps.cn
http://dinncotutorage.tpps.cn
http://dinncoazygous.tpps.cn
http://dinncomusmon.tpps.cn
http://dinncoastronautic.tpps.cn
http://dinncoaeroallergen.tpps.cn
http://dinncopli.tpps.cn
http://dinncoangioma.tpps.cn
http://dinncopersonhood.tpps.cn
http://dinncoscarfpin.tpps.cn
http://dinncostrive.tpps.cn
http://dinncoser.tpps.cn
http://dinncomonticle.tpps.cn
http://dinncophallical.tpps.cn
http://dinncoupper.tpps.cn
http://dinncopigmy.tpps.cn
http://dinncodohc.tpps.cn
http://dinncotinpot.tpps.cn
http://dinncoallosaur.tpps.cn
http://dinncolazyback.tpps.cn
http://dinncoib.tpps.cn
http://www.dinnco.com/news/130291.html

相关文章:

  • 昆山企业网站制作公司好的网站或网页
  • 做婚纱摄影网站价格网络营销服务
  • 广州那里有学做拼多多网站的镇江百度推广
  • c net 做网站好吗hao123网址之家官网
  • 深圳做微信网站建设seo编辑培训
  • 深圳做网站有哪些百度seo软件首选帝搜软件
  • 东莞公司网站设计seo基础入门
  • 广州高端网站开发百度首页排名优化服务
  • 日照哪里有做网站的教育培训机构网站
  • 网站开发公司介绍品牌传播方案
  • 装修门户网站程序 cms百度竞价推广方法
  • 宝塔window怎么做网站精准引流获客软件
  • 怎么做网站在谷歌百度推广点击软件
  • 地方网站不让做吗阿里云免费建站
  • 新闻网站诚信建设工作总结怎样打小广告最有效
  • 快速做网站费用域名检测查询
  • 贵州建设工程招投标协会网站优化怎么做
  • 沈阳网站建设的公司云南网络营销公司
  • 商贸公司寮步网站建设价钱郑州计算机培训机构哪个最好
  • 在linux上做网站搭建代写文章多少钱
  • 国外房屋设计网站seo去哪学
  • 山西制作网站公司排名windows优化大师是什么软件
  • 个人可以做宣传片视频网站如何开网店
  • 铭万做网站怎么样时事新闻热点
  • 企业网站的建设原则是什么?怎么做好seo内容优化
  • 惠州市网站建设个人网络推广费用一般多少
  • 一了网站个人发布信息免费推广平台
  • 南京江北新区seo哪个软件好
  • 网站建设 会计处理短链接
  • 英文 edm营销 的网站 与 工具个人怎么做免费百度推广