做结构图的网站,汕尾旅游攻略app跳转网站,台前网站建设费用,网站建设需求模板解决爬虫中文乱码问题 今天群里有个人反映某个网址爬出来的网页源代码出现中文乱码#xff0c;我研究了半天#xff0c;终于找到了解决方法。 一开始#xff0c;我是这样做的#xff1a; import requestsurl http://search.51job.com/jobsearch/search_result.php?fromJs… 解决爬虫中文乱码问题 今天群里有个人反映某个网址爬出来的网页源代码出现中文乱码我研究了半天终于找到了解决方法。 一开始我是这样做的 import requestsurl http://search.51job.com/jobsearch/search_result.php?fromJs1jobarea090200%2C00funtype0000industrytype00keywordpythonkeywordtype2langcstype2postchannel0000fromType1confirmdate9
print requests.get(url).content 这样做如果用命令行去运行得到的内容中文显示正常但如果用pycharm运行得到的确实乱码。 这个问题我一时半会还不知道是为什么如果有人知道请告诉我谢谢 后来我在网上查阅资料发现可以通过下面这种方式解决中文乱码问题 首先我们在浏览器中打开网址通过查看源代码可以发现这个网址采用的编码是GBK 然后我们通过下面这段代码发现通过requests获取的编码不是GBK而是ISO-8859-1。 import requestsurl http://search.51job.com/jobsearch/search_result.php?fromJs1jobarea090200%2C00funtype0000industrytype00keywordpythonkeywordtype2langcstype2postchannel0000fromType1confirmdate9
print requests.get(url).encoding 所以打印出来的就是乱码我们需要将编码改为GBK才可以 import requestsurl http://search.51job.com/jobsearch/search_result.php?fromJs1jobarea090200%2C00funtype0000industrytype00keywordpythonkeywordtype2langcstype2postchannel0000fromType1confirmdate9 r requests.get(url) r.encoding GBK print r.text 这样做无论你是用pycharm还是命令行去运行得到的都是正常的中文了。 posted on 2016-12-20 01:23 Kilichko 阅读(...) 评论(...) 编辑 收藏 转载于:https://www.cnblogs.com/Yemilice/p/6201224.html