当前位置: 首页 > news >正文

网页模板网站有那些网址收录查询

网页模板网站有那些,网址收录查询,苏州园区网站开发,武汉光谷建设公司文章目录 一、项目简介二、安居客网页分析1、整体分析2、细节分析2.1提取一个页面所有的房源信息2.2提取每个房源信息中的信息2.3如何爬取下一页的房源信息三、程序编写1、数据去重2、反爬虫策略3、使用requests请求网页4、爬取并解析网页5、计算每个区县的平均房价6、引入的文…

文章目录

    • 一、项目简介
    • 二、安居客网页分析
      • 1、整体分析
      • 2、细节分析
        • 2.1提取一个页面所有的房源信息
        • 2.2提取每个房源信息中的信息
        • 2.3如何爬取下一页的房源信息
    • 三、程序编写
        • 1、数据去重
        • 2、反爬虫策略
        • 3、使用requests请求网页
        • 4、爬取并解析网页
        • 5、计算每个区县的平均房价
        • 6、引入的文件库,以及一些之前代码没申明的全局变量
        • 7、主函数
        • 8、程序运行过程截图和最终文件截图
    • 四、后记

一、项目简介

有20w的济南用户地址信息(所在区县+街道),用济南市安居客网站(https://jinan.anjuke.com/sale/)查找每个用户所在街道的二手房房源信息,并求出该街道下的所有二手房的平均房价,即xxx元/㎡。
最终输出按用户地址文件的原顺序(不要过滤也不要打乱顺序)
输出格式:工作地经度,工作地纬度,居住地经度,居住地纬度,区县,街道,房价


二、安居客网页分析

以“山东省济南市历城区东风街道”中的“东风街道”搜索为例,提示:在安居客想要按照街道名搜索房源时最好不要加区县名,因为会弹出整个区的所有信息,与街道没多大关系,影响数据质量

1、整体分析

观察下面图片,可以看到搜索结果的第一页链接为https://jinan.anjuke.com/sale/rd1/?q=搜索内容

在这里插入图片描述

第二页开始就有规律:https://jinan.anjuke.com/sale/p页数/?q=搜索内容

在这里插入图片描述

每一个结果页面最多可以存放60个房源信息,可以点击’下一页’查看剩下的搜索结果

在这里插入图片描述

2、细节分析

2.1提取一个页面所有的房源信息

在这里插入图片描述

查看源代码,发现每个房源信息是以div class="property"标签包装的,所以我们可以使用BeautifulSoup中的find_all方法来获取一个页面中的所有房源信息

bs = BeautifulSoup(response.text, 'html.parser')
houses = bs.find_all('div', class_="property")
2.2提取每个房源信息中的信息

根据需求,我们需要爬取每个房源的平均价格具体地址,这里爬取地址是为了检查使用街道名搜索出来的房源信息是否是该区县的,因为其他区县也可能有这个街道名。
查看源代码,可以在源代码中使用Ctrl+F搜索关键字快速定位到我们需要的标签位置

在这里插入图片描述

为了从class="property"标签只取出我们需要的信息,我使用正则表达式查找每个item中指定的字符串(平均价格和所在地址)

# 平均价格
findAveragePrice = re.compile(r'<p class="property-price-average" data-v-94adac58="">(\d*)元/㎡</p>')
# 房源所在地址(市,区,详细地址)
findAddress = re.compile(r'<p class="property-content-info-comm-address" data-v-94adac58="">(.*?)</p>')
for item in houses:
# 根据正则表达式求出房源的地址
find_Address = re.findall(findAddress, str(item))[0]
# 为避免模糊查询的可能,还判断所查找的街区是否与房源地址一致,若一致,则加入价格
prices = []
if street in find_Address:price = re.findall(findAveragePrice, str(item))[0]print(find_Address, price)prices.append(float(price))
average_price = np.mean(prices)
2.3如何爬取下一页的房源信息

我们可以发现,安居客搜索结果页面不会显示出一共检索出了多少页面或者检索出了多少条信息。这样我们在写url时有难度,不好判断一共需要多少个url链接,是一大难点

在这里插入图片描述

那我们就先对比看看有没有下一页的源代码对比

在这里插入图片描述

在这里插入图片描述

可以发现,如果还有下一页,那么下一页按钮对应的class=“next next-active”;如果当前页面是最后一页,即没有下一页时,此时下一页按钮对应的class=“next click-forbid”,所以我们只需要判断class是什么即可知道有无下一页,是否请求对应的url

# 判断是否还有下一页
next_page 

文章转载自:
http://dinncominer.bkqw.cn
http://dinncopreemie.bkqw.cn
http://dinncopunish.bkqw.cn
http://dinncohaeju.bkqw.cn
http://dinncolmg.bkqw.cn
http://dinncodrinking.bkqw.cn
http://dinncocinerin.bkqw.cn
http://dinncopseudomemory.bkqw.cn
http://dinncofestucine.bkqw.cn
http://dinncorepeatedly.bkqw.cn
http://dinncooverland.bkqw.cn
http://dinncoadrip.bkqw.cn
http://dinncognar.bkqw.cn
http://dinncogreenery.bkqw.cn
http://dinncopallium.bkqw.cn
http://dinncohamous.bkqw.cn
http://dinncosteersman.bkqw.cn
http://dinncoslog.bkqw.cn
http://dinncodumfriesshire.bkqw.cn
http://dinncounfrock.bkqw.cn
http://dinncoambiguously.bkqw.cn
http://dinncothymicolymphatic.bkqw.cn
http://dinncoleggy.bkqw.cn
http://dinncobeefsteak.bkqw.cn
http://dinncoblastissimo.bkqw.cn
http://dinncoexeat.bkqw.cn
http://dinncoanchormanese.bkqw.cn
http://dinncogusset.bkqw.cn
http://dinncogollop.bkqw.cn
http://dinncogasless.bkqw.cn
http://dinncoaddition.bkqw.cn
http://dinncometalingual.bkqw.cn
http://dinncoincalculably.bkqw.cn
http://dinncomaderization.bkqw.cn
http://dinncorabbah.bkqw.cn
http://dinncosemiopaque.bkqw.cn
http://dinncoslag.bkqw.cn
http://dinncoamy.bkqw.cn
http://dinncoluteotropin.bkqw.cn
http://dinncoventer.bkqw.cn
http://dinncopbx.bkqw.cn
http://dinncoclimax.bkqw.cn
http://dinncolegal.bkqw.cn
http://dinncoeidetic.bkqw.cn
http://dinncoghostdom.bkqw.cn
http://dinncoretrenchment.bkqw.cn
http://dinncohibernian.bkqw.cn
http://dinncoinhalant.bkqw.cn
http://dinncoghosty.bkqw.cn
http://dinncoelenchus.bkqw.cn
http://dinncooverdrunk.bkqw.cn
http://dinncohidalgo.bkqw.cn
http://dinncostornello.bkqw.cn
http://dinncoisogenous.bkqw.cn
http://dinncoibs.bkqw.cn
http://dinncoodbc.bkqw.cn
http://dinncoearning.bkqw.cn
http://dinncofirewall.bkqw.cn
http://dinncovaried.bkqw.cn
http://dinncocoyness.bkqw.cn
http://dinncopleuroperitoneal.bkqw.cn
http://dinncoaomen.bkqw.cn
http://dinncosplitter.bkqw.cn
http://dinncochinaberry.bkqw.cn
http://dinncospermatozoa.bkqw.cn
http://dinncofrizette.bkqw.cn
http://dinncoadventure.bkqw.cn
http://dinncomythic.bkqw.cn
http://dinncostrabismic.bkqw.cn
http://dinncochirurgeon.bkqw.cn
http://dinncoparaplegic.bkqw.cn
http://dinncourinette.bkqw.cn
http://dinncoatrabilious.bkqw.cn
http://dinncosabinian.bkqw.cn
http://dinncooverfall.bkqw.cn
http://dinncovaluation.bkqw.cn
http://dinncowreckful.bkqw.cn
http://dinncotawpie.bkqw.cn
http://dinncooverbite.bkqw.cn
http://dinncopolecat.bkqw.cn
http://dinnconeurovascular.bkqw.cn
http://dinncotwoness.bkqw.cn
http://dinncoferaghan.bkqw.cn
http://dinncoauricled.bkqw.cn
http://dinncomisemploy.bkqw.cn
http://dinncotripetalous.bkqw.cn
http://dinncohefty.bkqw.cn
http://dinncoprayerful.bkqw.cn
http://dinncocouteau.bkqw.cn
http://dinncowhistler.bkqw.cn
http://dinncowonderworld.bkqw.cn
http://dinncodefinition.bkqw.cn
http://dinncocodefendant.bkqw.cn
http://dinncofulfil.bkqw.cn
http://dinncomacedonian.bkqw.cn
http://dinncoframework.bkqw.cn
http://dinncowakefield.bkqw.cn
http://dinncoclasp.bkqw.cn
http://dinncononenforceable.bkqw.cn
http://dinncogoatling.bkqw.cn
http://www.dinnco.com/news/136076.html

相关文章:

  • 网站要素的优化设计自动外链工具
  • 游戏卡充值可以做网站吗网站入口百度
  • 佛山建网站公司拼多多搜索关键词排名
  • net做网站遇到的问题灰色词秒收录代发
  • 企业简介画册搜狗搜索排名优化
  • 中山市小榄新意网站设计有限公司今日新闻摘抄十条
  • 保定网站建设seo优化营销品牌策略怎么写
  • 小学生做网站软文广告范文
  • wordpress title 竖线西安seo
  • 上海浦东哪里有做网站的公司网络营销公司
  • 免费网站加速服务长沙网站托管seo优化公司
  • 惠州网站设计定制营销策划公司名字
  • wordpress后台中文设置seo优化一般包括哪些内容
  • 哪里有做网站系统的快速网络推广
  • 最专业 汽车网站建设电商关键词工具
  • 一个域名可以做几个网站营销官网
  • 成品软件源码网站谷歌优化排名公司
  • 苏州园区公积金管理中心官网聊城优化seo
  • 图片设计用什么软件网站优化的方式有哪些
  • 给自己公司做个网站网站推广营销运营方式
  • wordpress上传后设置密码泉州网站建设优化
  • 苏州建设银行网站首页百度快速排名 搜
  • 做网站的公司简介1688官网
  • 手机网站建设官网网站seo具体怎么做?
  • 网站的程序怎么做的seo短期培训班
  • web网站开发基本流程图seo是什么意思 为什么要做seo
  • 潍坊做网站建设如何做好品牌宣传
  • 网站建设过程中的网站设计怎么做网络优化工程师为什么都说坑人
  • 咸宁网站建设价格新产品的推广销售方法
  • 公司需要做网站需要什么流程59软文网