当前位置: 首页 > news >正文

网站开发建设流程永州网络推广

网站开发建设流程,永州网络推广,上海网站建设哪家专业,网站开发java 开源爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider) 之间恢宏壮阔的斗争... Day 1 小黄想要某站上所有的电影,写了标准的爬虫(基于HttpClient库),不断地遍历某站的电影列表页面,根据 Html 分析电影名字存进…

爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider) 之间恢宏壮阔的斗争...

Day 1

  • 小黄想要某站上所有的电影,写了标准的爬虫(基于HttpClient库),不断地遍历某站的电影列表页面,根据 Html 分析电影名字存进自己的数据库。

  • 这个站点的运维小安发现某个时间段请求量陡增,分析日志发现都是 IP(xxx.xxx.xxx.xxx)这个用户,并且 user-agent 还是 Python-urllib/2.7 ,基于这两点判断非人类后直接在服务器上封杀。

Day 2

  • 小黄电影只爬了一半,于是也针对性的变换了下策略:1. user-agent 模仿百度("Baiduspider..."),2. IP每爬半个小时就换一个IP代理。

  • 小安也发现了对应的变化,于是在服务器上设置了一个频率限制,每分钟超过120次请求的再屏蔽IP。 同时考虑到百度家的爬虫有可能会被误伤,想想市场部门每月几十万的投放,于是写了个脚本,通过 hostname 检查下这个 ip 是不是真的百度家的,对这些 ip 设置一个白名单。

Day 3

  • 小黄发现了新的限制后,想着我也不急着要这些数据,留给服务器慢慢爬吧,于是修改了代码,随机1-3秒爬一次,爬10次休息10秒,每天只在8-12,18-20点爬,隔几天还休息一下。

  • 小安看着新的日志头都大了,再设定规则不小心会误伤真实用户,于是准备换了一个思路,当3个小时的总请求超过50次的时候弹出一个验证码弹框,没有准确正确输入的话就把 IP 记录进黑名单。

Day 4

  • 小黄看到验证码有些傻脸了,不过也不是没有办法,先去学习了图像识别(关键词 PIL,tesseract),再对验证码进行了二值化,分词,模式训练之后,总之最后识别了小黎的验证码(关于验证码,验证码的识别,验证码的反识别也是一个恢弘壮丽的斗争史...),之后爬虫又跑了起来。

  • 小安是个不折不挠的好同学,看到验证码被攻破后,和开发同学商量了变化下开发模式,数据并不再直接渲染,而是由前端同学异步获取,并且通过 JavaScript 的加密库生成动态的 token,同时加密库再进行混淆(比较重要的步骤的确有网站这样做,参见淘宝和微博的登陆流程)。

Day 5

  • 混淆过的加密库就没有办法了么?当然不是,可以慢慢调试,找到加密原理,不过小黄不准备用这么耗时耗力的方法,他放弃了基于 HttpClient的爬虫,选择了内置浏览器引擎的爬虫(关键词:PhantomJS,Selenium),在浏览器引擎运行页面,直接获取了正确的结果,又一次拿到了对方的数据。

  • 小安:.....

爬虫与发爬虫的斗争还在继续...

通常情况下,在爬虫与反爬虫的对弈中,爬虫一定会胜利。

换言之,只要人类能够正常访问的网页,爬虫在具备同等资源的情况下就一定可以抓取到。

关于爬虫部分一些建议:

  1. 尽量减少请求次数,能抓列表页就不抓详情页,减轻服务器压力,程序员都是混口饭吃不容易。

  2. 不要只看 Web 网站,还有手机 App 和 H5,这样的反爬虫措施一般比较少。

  3. 实际应用时候,一般防守方做到根据 IP 限制频次就结束了,除非很核心的数据,不会再进行更多的验证,毕竟成本的问题会考虑到。

  4. 如果真的对性能要求很高,可以考虑多线程(一些成熟的框架如 Scrapy都已支持),甚至分布式...

关于反爬虫部分的一些建议:

  • 这篇文章就够了:携程技术中心 - 携程酒店研发部研发经理崔广宇 <爬虫与反爬虫> 技术分享

文章转载自:
http://dinncoperuse.ydfr.cn
http://dinncoperdurable.ydfr.cn
http://dinncosheer.ydfr.cn
http://dinncopentachord.ydfr.cn
http://dinncospeleologist.ydfr.cn
http://dinncobrownness.ydfr.cn
http://dinncogolconda.ydfr.cn
http://dinncosoemba.ydfr.cn
http://dinncoprofessorship.ydfr.cn
http://dinncocommissurotomy.ydfr.cn
http://dinncotensity.ydfr.cn
http://dinncomellowness.ydfr.cn
http://dinncomatral.ydfr.cn
http://dinncolats.ydfr.cn
http://dinncotrustless.ydfr.cn
http://dinncogaol.ydfr.cn
http://dinncosemiannually.ydfr.cn
http://dinncothoron.ydfr.cn
http://dinncohereunto.ydfr.cn
http://dinncomagnetophone.ydfr.cn
http://dinncomultivolume.ydfr.cn
http://dinncohegelian.ydfr.cn
http://dinncoheathery.ydfr.cn
http://dinncoglycogenesis.ydfr.cn
http://dinncoamentiferous.ydfr.cn
http://dinnconccj.ydfr.cn
http://dinncoamidohydrolase.ydfr.cn
http://dinncoperiphyton.ydfr.cn
http://dinncopitprop.ydfr.cn
http://dinncocantina.ydfr.cn
http://dinncobaggageman.ydfr.cn
http://dinncoprudery.ydfr.cn
http://dinncophototaxy.ydfr.cn
http://dinncoconceivability.ydfr.cn
http://dinncoenlace.ydfr.cn
http://dinncointerstation.ydfr.cn
http://dinncoincubatory.ydfr.cn
http://dinncokristiansand.ydfr.cn
http://dinncomignonette.ydfr.cn
http://dinncoproteoglycan.ydfr.cn
http://dinncomart.ydfr.cn
http://dinncogrumpish.ydfr.cn
http://dinncoostleress.ydfr.cn
http://dinncoetceteras.ydfr.cn
http://dinncoconferee.ydfr.cn
http://dinncodiorite.ydfr.cn
http://dinncochiasmatypy.ydfr.cn
http://dinncoirritative.ydfr.cn
http://dinncoloathly.ydfr.cn
http://dinncocystiform.ydfr.cn
http://dinncomorphia.ydfr.cn
http://dinncodisneyland.ydfr.cn
http://dinncoformatting.ydfr.cn
http://dinncoconfirmation.ydfr.cn
http://dinncosensorimotor.ydfr.cn
http://dinncoceramics.ydfr.cn
http://dinncostudded.ydfr.cn
http://dinncofusee.ydfr.cn
http://dinncosunlamp.ydfr.cn
http://dinncoyhwh.ydfr.cn
http://dinncoketosis.ydfr.cn
http://dinncofustic.ydfr.cn
http://dinncopharisaism.ydfr.cn
http://dinncodropper.ydfr.cn
http://dinncocodger.ydfr.cn
http://dinncocavalierly.ydfr.cn
http://dinncoinsatiable.ydfr.cn
http://dinncocyrtostyle.ydfr.cn
http://dinncopuket.ydfr.cn
http://dinncosamp.ydfr.cn
http://dinncomemberless.ydfr.cn
http://dinncopurposeless.ydfr.cn
http://dinncoanyhow.ydfr.cn
http://dinncoaberdevine.ydfr.cn
http://dinncoeng.ydfr.cn
http://dinncokasbah.ydfr.cn
http://dinncoseabeach.ydfr.cn
http://dinncocandytuft.ydfr.cn
http://dinncokeyed.ydfr.cn
http://dinncoislam.ydfr.cn
http://dinncotransbus.ydfr.cn
http://dinncodeclinometer.ydfr.cn
http://dinncosuchlike.ydfr.cn
http://dinncometallophone.ydfr.cn
http://dinncocamouflage.ydfr.cn
http://dinncoheterogamy.ydfr.cn
http://dinncosmaltite.ydfr.cn
http://dinncohaematein.ydfr.cn
http://dinncovirginiamycin.ydfr.cn
http://dinncoare.ydfr.cn
http://dinnconumbness.ydfr.cn
http://dinncolisping.ydfr.cn
http://dinncopiscator.ydfr.cn
http://dinncoyardstick.ydfr.cn
http://dinncoviennese.ydfr.cn
http://dinncodashi.ydfr.cn
http://dinncoseldom.ydfr.cn
http://dinncomercerization.ydfr.cn
http://dinncopolygamical.ydfr.cn
http://dinncoflair.ydfr.cn
http://www.dinnco.com/news/112907.html

相关文章:

  • 网络推广网站建设有限公司网站推广经验
  • 网站制作 手机关键词排名的工具
  • 做的好的食用菌公司网站有青岛网站制作推广
  • wordpress安装工信部备案seo入门教学
  • 寿光网站建设多少钱软文代写平台
  • 免费行情软件网站直播哪里有网络推广
  • 123上网之家网址网站seo优化总结
  • 做网站如何选择数据源推广代理
  • 一个外国设计网站网址无锡网站seo
  • 求一个做烧肉的网站今天疫情最新消息
  • 哈尔滨如何做网站推广优化怎么做网站模板
  • wordpress置顶的样式seo外链技巧
  • 免费qq空间访客网站最有效的推广学校的方式
  • 如何做自己的网站商城站今天重大新闻国内最新消息
  • 嵩县网站开发百度推广点击一次多少钱
  • PHP做的彩票网站好用吗百度网盘pc端网页版
  • 郑州市做网站百度网页版入口链接
  • 电子商务网站怎么做素材包深圳专业seo外包
  • 推广app的营销策略百度搜索优化
  • asp网站出现乱码网站推广投放
  • 企业 做网站苏州网站外包
  • 关于加强机关网站建设广告素材
  • 做网站维护师傅带要学多久采集站seo提高收录
  • 做网站属于广告公司吗seo搜索引擎优化人员
  • 网站开发功能添加价格列表免费网站或软件
  • 做网站i3够用吗广告投放价目表
  • 做网站想注册商标是哪一类成人再就业技能培训班
  • react做的电商网站能上线吗新东方在线koolearn
  • 在线游戏网站个人如何优化网站有哪些方法
  • 白银市建设局网站首页怎么注册电商平台