当前位置: 首页 > news >正文

企业网站设计制作教程seo综合诊断工具

企业网站设计制作教程,seo综合诊断工具,聊城手机网站公司,wordpress 添加广告位网络爬虫过程中三种中文乱码的处理方案,希望对大家的学习有所帮助 一、思路 其实解决问题的关键点就是在于一点,就是将乱码的部分进行处理,而处理的方案主要可以从两个方面进行出发。其一是针对整体网页进行提前编码,其二是针对…

网络爬虫过程中三种中文乱码的处理方案,希望对大家的学习有所帮助

一、思路

其实解决问题的关键点就是在于一点,就是将乱码的部分进行处理,而处理的方案主要可以从两个方面进行出发。其一是针对整体网页进行提前编码,其二是针对局部具体中文乱码的部分进行编码处理。

二、分析

1、当出现网页编码为gbk,获取到的内容在控制台打印类似如下情况的时候:

ÃÀÅ® µçÄÔ×À ¼üÅÌ »ú·¿ ¿É°® С½ã½ã4k±ÚÖ½

虽然看上去控制台输出正常,没有报错, 但是输出的中文内容,却不是普通人能看得懂的。

2、当出现网页编码为gbk,获取到的内容在控制台打印类似

�װŮ�� ��Ů ˮ СϪ Ψ��
 这种情况下的话,就可以通过使用本文给出的三种方法进行解决,屡试不爽!

三、具体实现

1)方法一:将requests.get().text改为requests.get().content
我们可以看到通过text()方法获取到的源码,之后进行打印输出的话,确实是会存在乱码的,如下图所示。
在这里插入图片描述
此时可以考虑将请求变为.content,得到的内容就是正常的了。
在这里插入图片描述
2)方法二:手动指定网页编码
#手动设定响应数据的编码格式

response.encoding = response.apparent_encoding

如果觉得上面的方法很难记住,或者你可以尝试直接指定gbk编码也可以进行处理,如下图所示:
在这里插入图片描述 这个方法稍微复杂一些,但是比较好理解,对于初学者来说,还是比较好接受的。
如果觉得上面的方法很难记住,或者你可以尝试直接指定gbk编码也可以进行处理,如下图所示:
在这里插入图片描述
上面介绍的两种方法都是针对网页进行整体编码,效果显著,接下来的第三种方法就是针对中文局部乱码部分使用通用编码方法进行处理。

3)方法三:使用通用的编码方法

img_name.encode('iso-8859-1').decode('gbk')

在这里插入图片描述

http://www.dinnco.com/news/81350.html

相关文章:

  • 微信公众号制作网站百度收录是什么意思
  • 沃航科技网站开发海外广告优化师
  • 旅游网站做seosem和seo哪个工作好
  • 推荐几个响应式网站做参考推广平台有哪些?
  • 网站开发邮件安徽网站开发哪家好
  • 花钱做推广广告哪个网站好seo推广小分享
  • 电商网站建设系统seo推广哪家服务好
  • 企业移动网站建设商反向链接查询
  • 263企业会议邮箱登录入口seo外链推广工具
  • 帮别人做网站涉嫌诈骗网站的推广
  • 哪些网站可以做ppt阿里巴巴怎么优化关键词排名
  • 微信平台与微网站开发西安网站托管
  • 做100个垂直网站百度推广开户费用
  • 湛江做网站seo的百度热搜榜排行
  • 举报非法网站要求做笔录百度搜索榜单
  • 关于做网站的外语文献企业seo顾问公司
  • 武汉百度网站排名torrentkitty磁力官网
  • 辽宁建设工程信息网怎么报名百度快照seo
  • 做饲料推广哪个网站好如何在网络上推广产品
  • 网站友情链接怎么添加网站权重查询工具
  • 建设信息门户网站佛山网站定制
  • 个人网站可以做商城吗全网最好的推广平台
  • 仿造整个网站搜索引擎优化网站
  • 建设网站的五个步骤郑州网站推广电话
  • 微商城登录南昌网站seo
  • 有没有适合宝妈找工作做兼职的网站电商平台怎么加入
  • cms做网站可以做些什么网站济南网站设计
  • 企业网站模板 下载 免费自己做网站制作流程
  • 做数据收集网站安徽seo团队
  • 政府网站集约化建设作用seo排名培训