当前位置: 首页 > news >正文

精准客户数据采集软件淘宝优化关键词的步骤

精准客户数据采集软件,淘宝优化关键词的步骤,东莞传媒公司,59做网站题目 链接 爬虫往往不能在一个页面里面获取全部想要的数据,需要访问大量的网页才能够完成任务。 这里有一个网站,还是求所有数字的和,只是这次分了1000页。 思路 找到调用接口 可以看到后面有个参数page来控制页码 代码实现 import reques…

题目
链接

爬虫往往不能在一个页面里面获取全部想要的数据,需要访问大量的网页才能够完成任务。
这里有一个网站,还是求所有数字的和,只是这次分了1000页。

思路

  • 找到调用接口

-
可以看到后面有个参数page来控制页码

代码实现

import requests
import reurl = 'http://www.glidedsky.com/level/web/crawler-basic-2'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54','Cookie': ''
}res = 0
for i in range(1, 1001):temp_url = url + '?page=' + str(i)response = requests.get(temp_url, headers=headers)html = response.textpattern = re.compile('<div class="col-md-1">.*?(\d+).*?</div>', re.S)n_list = re.findall(pattern, html)for n in n_list:res += int(n)print(f'Result: {res}')

使用多线程实现更快爬取:

import requests
import re
import threadingurl = 'http://www.glidedsky.com/level/web/crawler-basic-2'
total_threads = 10  # 设置线程数量
lock = threading.Lock()  # 创建一个锁,用于线程间的数据同步
res = 0def worker(thread_id):global resfor i in range(thread_id, 1001, total_threads):temp_url = url + '?page=' + str(i)response = requests.get(temp_url, headers=headers)html = response.textpattern = re.compile('<div class="col-md-1">.*?(\d+).*?</div>', re.S)n_list = re.findall(pattern, html)with lock:for n in n_list:res += int(n)threads = []
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54','Cookie': ''
}# 创建并启动线程
for i in range(total_threads):thread = threading.Thread(target=worker, args=(i,))thread.start()threads.append(thread)# 等待所有线程执行完成
for thread in threads:thread.join()print(f'Result: {res}')

使用异步函数

import aiohttp
import asyncio
import reurl = 'http://www.glidedsky.com/level/web/crawler-basic-2'
total_requests = 1000  # 总共地请求次数
concurrent_requests = 10  # 同时并发的请求数量
res = 0headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54','Cookie': ''
}async def fetch_url(session, temp_url):async with session.get(temp_url, headers=headers) as response:html = await response.text()pattern = re.compile('<div class="col-md-1">.*?(\d+).*?</div>', re.S)n_list = re.findall(pattern, html)return [int(n) for n in n_list]async def main():async with aiohttp.ClientSession() as session:tasks = []for i in range(1, total_requests + 1):temp_url = url + '?page=' + str(i)tasks.append(fetch_url(session, temp_url))if len(tasks) >= concurrent_requests or i == total_requests:results = await asyncio.gather(*tasks)for n_list in results:for n in n_list:global resres += ntasks = []loop = asyncio.get_event_loop()
loop.run_until_complete(main())print(f'Result: {res}')

时间统计:同步的方式大概80s,多线程和异步时间差不多都是20s左右

http://www.dinnco.com/news/41835.html

相关文章:

  • 建设网站如何写文案深圳网站建设维护
  • 链接网站怎么做高权重外链
  • 免费网站哪个好谷歌外贸
  • wordpress前端登陆seo网站关键词排名提升
  • 做网站的备案资料项目推广
  • 行业网站开发官网优化哪家专业
  • 中文网站建设设计网站怎么申请怎么注册
  • WordPress数据库自动切换关键词优化工具
  • 教育培训机构微网站模板网络广告营销的典型案例
  • 网站建设制作软件百度竞价推广方法
  • dw做的网站怎么做后台手机网站智能建站
  • 自己做的网站维护一年多少钱黑帽seo什么意思
  • 模具外贸营销网站如何做营销推广活动策划
  • 有没有做课题很好的网站互联网营销怎么做
  • 电商网站代码模板游戏挂机赚钱一小时20
  • 免费如何创建网站平台百度网盘app官网
  • 扬州网站建设开发怎么制作网站教程
  • 武汉网站建设电话咨询今日新闻最新头条10条摘抄
  • 佛山网站建设服务百度指数代表什么意思
  • 有经验的盐城网站开发天津网站制作系统
  • 建站网站的图片宁波seo排名费用
  • 免费电影网站网络营销与网站推广的
  • 购物网站的设计思路现在有哪些培训学校
  • 中企动力网站培训关注公众号推广2元一个
  • 上海网站 备案查询潍坊住房公积金管理中心
  • 网站建设费分录济南百度seo
  • 怎么做网站搜索引擎利于搜索网络营销的概念与含义
  • 网站后台制作教程成都百度
  • 个人主页页面设计沈阳seo网站关键词优化
  • 网站建设活动方案发软文的平台