当前位置: 首页 > news >正文

镇江网站建设yubei021北京外贸网站优化

镇江网站建设yubei021,北京外贸网站优化,做uml图网站,在一起做网店的网站的怎么购买这是栖落的电影网站地址:https://xxx.xxx 进入网页,显示: 爬取目标:电影的名称、观影人数和评分。 易知本网站的url url "https://xxx.xxx" 本网站会识别出headers中的python请求而拒绝访问,所以需要更改…

这是栖落的电影网站地址:https://xxx.xxx

进入网页,显示:

 爬取目标:电影的名称、观影人数和评分。

易知本网站的url

url = "https://xxx.xxx"

本网站会识别出headers中的python请求而拒绝访问,所以需要更改headers当中的信息

user-agent:

 Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/11.0.1587.41

对应的代码为:

headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/11.0.1587.41"

选中目标

 利用正则表达式匹配相应的信息。

obj = re.compile(r'<li>.*?标志1.*?标志2.*?标志1.*?标志2.*?标志1.*?标志2.*?</li>',re.S)

红色的.*?匹配需要的信息,其余的过滤掉多余的信息,各个标志为.*?的左右端的关键信息,r为requests模块返回的text文本。 

并且我们需要为匹配的信息赋予相应的意义,即名、观影人数和评分。

利用(?<别名>)

obj = re.compile(r'<li>.*?标志1(?P<name>.*?)标志2.*?标志1(?P<num>.*?)标志2.*?标志1<?P<score>.*?)标志2.*?</li>',re.S)

把匹配的对象放入list中以便遍历。

result = obj.finditer(r)

遍历且以一定格式输出。

 for it in result:
    print("{:<10s}{:<5s{<5s}".format(it.group("name"),it.group("num"),it.group("score")))

参考代码: 

import requests
import re#获取页面信息
url = "https://xxx.xxx"
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/11.0.1587.41"
}
r = requests.get(url,headers=headers)
r = r.text
#print(r)
#解析页面
obj = re.compile(r'<li>.*?<span class="title">(?P<name>.*?)</span>.*?<br>(?P<num>.*?)&nbsp.*?<span class="rating_num" property="v:average">(?P<score>.*?)</li>',re.S)
#匹配
result = obj.finditer(r)
#输出
for it in result:print("{:<10s}{:<5s{<5s}".format(it.group("name"),it.group("num"),it.group("score")))

输出结果: 

小结: 

如何爬取本站?

  1. 确定url
  2. 更改headers
  3. 请求页面信息
  4. 正则匹配
  5. 输出

提问 :

re.compile是啥?

compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象。

语法格式如下:re.compile(pattern,[flags])

参数:

pattern : 一个字符串形式的正则表达式

flags : 可选,表示匹配模式,比如忽略大小写,多行模式等,具体参数为:

  • re.I :忽略大小写
  • re.L :表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
  • re.M :多行模式
  • re.S :即为 . 并且包括换行符在内的任意字符(. 不包括换行符)
  • re.U :表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
  • re.X :为了增加可读性,忽略空格和 # 后面的注释

 finditer是啥?

finditer 返回一个可迭代对象

http://www.dinnco.com/news/71532.html

相关文章:

  • php学多久可以做网站微信代运营
  • 山西大同网站建设哪家好百度推广步骤
  • 企业网站建设亮点什么是网络营销策划
  • 政务网站队伍建设情况百度云搜索引擎入口官网
  • 怎么对一个产品进行网络营销站长之家seo概况查询
  • 东营长安网站建设seo研究中心vip教程
  • 澧县网站建设2021百度模拟点击工具
  • 万国手表真伪查询网站南昌网优化seo公司
  • 陆家网站建设运营推广
  • wordpress页脚间距代码百度关键词优化专家
  • 要建立网站是否要先做网页设计_然后把网页设计与数据库连接起来?刘雯每日资讯
  • 湖北武汉网站制作seo站内优化教程
  • 利用关键词进网站后台教育培训机构加盟
  • wordpress修改字体为微软网站优化方案范文
  • 什么网站可以做公务员考试题百度seo2022新算法更新
  • wordpress文字链接去掉下划线南宁seo推广
  • 网站改版有什么影响网络搭建是干什么的
  • 请人做网站后台密码seo页面排名优化
  • 施工企业领导带班记录栾城seo整站排名
  • wap多用户网站友情链接推广平台
  • 酒店机票最便宜的网站建设营销型网站建设步骤
  • 自己做的网站如何让别人看到网络服务有哪些
  • 网站要做几个备案电商网站卷烟订货流程
  • 哈尔滨模板建站哪个品牌好交换链接营销案例
  • 怎样做网站搜索推广电话成都网站分析工具
  • 江阴网站开发招聘新乡百度网站优化排名
  • 自助做网站小说关键词自动生成器
  • wordpress贴内幻灯片百度惠生活怎么优化排名
  • 哪里学网站建设与管理一键优化免费下载
  • seo网站优化收藏营销的手段和方法