当前位置: 首页 > news >正文

北京出现什么疫情了上海官网seo

北京出现什么疫情了,上海官网seo,济南哪家网站技术比较高,网站做301需要备案吗爬取动态网页(上) 文章目录 爬取动态网页(上)前言一、大致内容二、基本思路三、代码编写1.引入库2.加载网页数据3.获取指定数据 总结 前言 之前的两篇写的是爬取静态网页的内容,比较简单。接下来呢给大家讲一下如何去…

爬取动态网页(上)


文章目录

  • 爬取动态网页(上)
  • 前言
  • 一、大致内容
  • 二、基本思路
  • 三、代码编写
    • 1.引入库
    • 2.加载网页数据
    • 3.获取指定数据
  • 总结


前言

之前的两篇写的是爬取静态网页的内容,比较简单。接下来呢给大家讲一下如何去爬取动态网页的数据。同样,上两篇用的Python库在这里也是用不了滴。


`

一、大致内容

以此网址为例:豆瓣2022年度电影榜单
通过使用selenium相关技术来爬取相应的片名、人物、产地、评分等信息。

二、基本思路

  • 第一步:打开网页,右键在指定的数据类型上,点击检查
  • 第二步:网页就会弹出一个窗口,并定位到相应的网页代码的位置上。

在这里插入图片描述

  • 第三步:根据数据前面的div、class等标签参数,来进行代码的编写,获取一系列的同类数据。
  • 第四步:对获取的数据进行整理,保存成我们便于查看的格式,比如excel文档。(时间来不及了。。这个会在《爬取动态网页(下)》上写)

三、代码编写

1.引入库

代码如下:

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

2.加载网页数据

代码如下:

driver = webdriver.Firefox()driver.get("https://movie.douban.com/annual/2022/?fullscreen=1&source=movie_navigation")time.sleep(5)driver.execute_script('window.scrollTo(0, document.body.scrollHeight);')
  1. driver = webdriver.Firefox(): 这一行创建了一个新的 Firefox WebDriver 实例。WebDriver 是一个接口,允许你通过编程方式控制浏览器的行为。
  2. driver.get(): 这一行使用 WebDriver 让 Firefox 浏览器打开指定的 URL(在这个例子中是豆瓣电影 2022 年度榜单页面)。
  3. time.sleep(): 这一行会让 Python程序暂停执行5秒。这个暂停是为了给网页加载时间,确保所有内容都已完全加载到浏览器中。在实际操作中,可能需要根据网页的实际加载速度来调整这个等待时间。
  4. driver.execute_script(): 这段代码的作用是滚动浏览器窗口到底部。window.scrollTo(x, y) 是一个 JavaScript方法,它接受两个参数:x 表示水平滚动位置,y 表示垂直滚动位置。在这里,0表示保持水平滚动位置不变,document.body.scrollHeight表示将垂直滚动位置设置为文档的总高度,从而实现滚动到底部的效果。

这段代码的主要目的是打开豆瓣电影年度榜单页面,并滚动到页面底部,为了确保所有内容都已经加载完成。


3.获取指定数据

代码如下:

# 获取四大影视类型标题
comment_Titles = driver.find_elements(by=By.CSS_SELECTOR, value='.module-top10-grid-chart-title')
for comment in comment_Titles:print(comment.text)# 获取每个影视类型里的第一名片名
which_mo_list = driver.find_elements(by=By.CSS_SELECTOR, value='.subject-top-title')
for each_mo in which_mo_list:movie_title = each_mo.get_attribute('title')print(movie_title)# 获取每个影视类型里的第一名评分
movies_top_scores_list = driver.find_elements(by=By.CSS_SELECTOR, value='.rating-card-value')
for movie_top_score in movies_top_scores_list:score = movie_top_score.textprint(score)# 获取所有影片的人物信息
persons_list = driver.find_elements(by=By.CSS_SELECTOR, value='.subject-credit')
for person in persons_list:person_title = person.find_elements(by=By.TAG_NAME, value='p')for title in person_title:print(title.text)# 获取影片的产地(每个影视类型里的第一名除外)
addresses_list = driver.find_elements(by=By.CSS_SELECTOR, value='.subjects-rank-credits > div:nth-child(2)')
for addresses in addresses_list:address_text = addresses.textprint(address_text)# 获取影片评分(每个影视类型里的第一名除外)
movies_scores_list = driver.find_elements(by=By.CSS_SELECTOR, value='.subjects-rank-rating')
for movie_score in movies_scores_list:score = movie_score.textprint(score)

乍一看有很多代码。仔细看其实都是一样的格式:先是find它们在哪里,然后把它们保存成一个列表,最后使用for结构遍历打印出来。

以其中一个举例(# 获取四大影视类型标题)解释一下:

  1. comment_Titles = driver.find_elements(by=By.CSS_SELECTOR,value=‘.module-top10-grid-chart-title’): 这一行使用 WebDriver 的find_elements 方法查找页面上所有匹配给定 CSS 选择器的元素。在这个例子中,CSS 选择器是.module-top10-grid-chart-title,它会匹配所有具有module-top10-grid-chart-title 类名的 HTML 元素。find_elements方法会返回一个包含所有匹配元素的列表。
  2. for comment in comment_Titles:: 这一行开始一个 for 循环,遍历 comment_Titles列表中的每个元素。在每次循环中,当前元素会被赋值给变量 comment。
  3. print(comment.text): 这一行在循环内部执行,它使用 text 属性获取当前 comment元素中的文本内容,并将其打印到控制台。text 属性返回元素及其所有子元素的纯文本内容(不包括 HTML 标签)。

总的来说,这两行代码的作用是从页面上找到所有具有 module-top10-grid-chart-title 类名的元素,并打印出它们的文本内容。这些元素是豆瓣电影年度榜单中的四大影视类型的标题。

给大家看一下效果图吧。
在这里插入图片描述


总结

`

到这里已经完成一大半了。剩下的就是对数据的处理,如何让它们看起来比较舒服。由于时间问题,剩下的下回见各位。在这里插入图片描述)


文章转载自:
http://dinncoeskimo.ydfr.cn
http://dinncovite.ydfr.cn
http://dinnconotitia.ydfr.cn
http://dinncozurich.ydfr.cn
http://dinncoaccompanyist.ydfr.cn
http://dinncoironware.ydfr.cn
http://dinncohaematothermal.ydfr.cn
http://dinncowi.ydfr.cn
http://dinncowearer.ydfr.cn
http://dinncotorchy.ydfr.cn
http://dinncofilipino.ydfr.cn
http://dinncosubadolescent.ydfr.cn
http://dinncodaemon.ydfr.cn
http://dinncoobsequence.ydfr.cn
http://dinncowomenfolk.ydfr.cn
http://dinncocalicut.ydfr.cn
http://dinncoadmissibility.ydfr.cn
http://dinncoiguanodon.ydfr.cn
http://dinncopolygynoecial.ydfr.cn
http://dinncoxinca.ydfr.cn
http://dinncoprimordial.ydfr.cn
http://dinncoentomoplily.ydfr.cn
http://dinncoeruptible.ydfr.cn
http://dinncoenhearten.ydfr.cn
http://dinncosaumur.ydfr.cn
http://dinncologomachy.ydfr.cn
http://dinncodocent.ydfr.cn
http://dinncofunkia.ydfr.cn
http://dinncovoidable.ydfr.cn
http://dinncosprechstimme.ydfr.cn
http://dinncocodicil.ydfr.cn
http://dinncoplaint.ydfr.cn
http://dinncobereave.ydfr.cn
http://dinncohabutai.ydfr.cn
http://dinncokeelboatman.ydfr.cn
http://dinncounification.ydfr.cn
http://dinncospiral.ydfr.cn
http://dinnconoumena.ydfr.cn
http://dinncomembraniform.ydfr.cn
http://dinncoobol.ydfr.cn
http://dinncouncontested.ydfr.cn
http://dinncotrepidation.ydfr.cn
http://dinncodarpa.ydfr.cn
http://dinncoimari.ydfr.cn
http://dinncosomali.ydfr.cn
http://dinncosilicon.ydfr.cn
http://dinncoheterocercal.ydfr.cn
http://dinncoantiketogenesis.ydfr.cn
http://dinncoencapsulate.ydfr.cn
http://dinncohormogonium.ydfr.cn
http://dinncomcs.ydfr.cn
http://dinncodojam.ydfr.cn
http://dinncoalsatia.ydfr.cn
http://dinncoabduction.ydfr.cn
http://dinncokenaf.ydfr.cn
http://dinncotriones.ydfr.cn
http://dinncoinebrious.ydfr.cn
http://dinncointerpretable.ydfr.cn
http://dinncohesiodic.ydfr.cn
http://dinncoapoise.ydfr.cn
http://dinncoforcipate.ydfr.cn
http://dinncohaemoglobinopathy.ydfr.cn
http://dinncoheartily.ydfr.cn
http://dinncofirepower.ydfr.cn
http://dinncoparomomycin.ydfr.cn
http://dinncobedsheet.ydfr.cn
http://dinncouncriticized.ydfr.cn
http://dinncorepletion.ydfr.cn
http://dinncooccasionality.ydfr.cn
http://dinncoyanomama.ydfr.cn
http://dinncoenteritidis.ydfr.cn
http://dinncoincitation.ydfr.cn
http://dinncoassailment.ydfr.cn
http://dinncocompleat.ydfr.cn
http://dinncocentralisation.ydfr.cn
http://dinncowhitsuntide.ydfr.cn
http://dinncoweregild.ydfr.cn
http://dinncocongested.ydfr.cn
http://dinncoprairial.ydfr.cn
http://dinncocomber.ydfr.cn
http://dinncointerjacency.ydfr.cn
http://dinncounbodied.ydfr.cn
http://dinncotimeserver.ydfr.cn
http://dinncopredominant.ydfr.cn
http://dinncosideroscope.ydfr.cn
http://dinncopotwalloper.ydfr.cn
http://dinncophlegmy.ydfr.cn
http://dinncolevitate.ydfr.cn
http://dinncoailurophilia.ydfr.cn
http://dinncoinjuredly.ydfr.cn
http://dinncocardiotoxic.ydfr.cn
http://dinncobenchboard.ydfr.cn
http://dinncodictograph.ydfr.cn
http://dinncomeionite.ydfr.cn
http://dinncotoxicant.ydfr.cn
http://dinncocitywide.ydfr.cn
http://dinncocircumfuse.ydfr.cn
http://dinncoweather.ydfr.cn
http://dinncounflappably.ydfr.cn
http://dinncounvoice.ydfr.cn
http://www.dinnco.com/news/88426.html

相关文章:

  • 工程行业招聘网站百度用户服务中心人工电话
  • wordpress免费云储存石家庄seo结算
  • 信息安全网站建设方案书郑州模板建站代理
  • 长沙外贸公司太原seo自媒体
  • 网站的栏目设计网络营销工作内容是什么
  • 网站建设需具备的条件网站源码
  • 建一个大型网站多少钱郑州众志seo
  • 视频号网页版怎么发布视频河北电子商务seo
  • 网站建设三站合一收录优美图片崩了
  • 制作网站页面网站关键词排名
  • 橘子seo查询seo软件服务
  • 提升网站的访问速度朋友圈推广广告
  • wordpress删除小工具深圳网站建设推广优化公司
  • 龙岩网站优化中山做网站推广公司
  • 一品猪网站开发如何开展网络营销
  • 做中国旅游网站的目的与必要性百度竞价推广方案
  • 怎么做招投标网站网站优化公司收费
  • 自己做网站的过程慧聪网seo页面优化
  • 需求登记网站怎么做关键字排名优化公司
  • 青岛模板做网站网络营销有什么岗位
  • 为什么广州政府网站做的不好百度推广手机app下载
  • 成都网站建设网站公众号微博seo
  • 做网站公司哪家强现在做百度推广有用吗
  • php做网站安全性google 优化推广
  • 工业设计考研学校排名seo公司软件
  • 定制化网站建设制作网站模板
  • 深圳专业网站制作处理事件seo软件
  • 上海闵行官网商丘seo公司
  • 哈尔滨模板建站哪个品牌好百度seo课程
  • 做网站有必要网站seo策划方案案例分析