宁津网站开发,邯郸做网站推广的公司,外贸网站建设制作,重庆网站建设公司排名原标题#xff1a;Python 爬取知乎 9674 个问答#xff0c;揭秘最受欢迎的 98 本书#xff01;作者 | Yura责编 | 胡巍巍高尔基这话有没有道理我不知道#xff0c;咱也不敢问#xff0c;主要是现在也问不了。那对我来说#xff0c;读书有什么意义呢#xff1f;应该也是阶…原标题Python 爬取知乎 9674 个问答揭秘最受欢迎的 98 本书作者 | Yura责编 | 胡巍巍高尔基这话有没有道理我不知道咱也不敢问主要是现在也问不了。那对我来说读书有什么意义呢应该也是阶梯。但是这影响是消极还是积极投入的时间和得到的回报到底成不成正比每本都不一样这很大情况与书的质量有关。那么问题就来了我们到底该读什么书呢换言之若想阶梯又稳又长需要什么样的砖呢我知道豆瓣有评分TOP100的书籍榜单但是看着这一长串的列表我觉得不够有人情味。我平时书荒的时候喜欢逛知乎那些带有“小红书”式夸张描述“必读不可错过”“跪了”“强推“往往让我有一种马上买它啊不是下载它的冲动上个月我买了个电子书下载的会员每天可以将书直接推送Kindle非常方便但是会员是要钱的而且是有时间限制的……一眨眼还有3天就到期了。想想自己上个月顶多下载了3本书现在还有3天就过期了相当于白白浪费了20本*(30-3天)-3本537本书的下载机会。还剩下3天我一定要利用起来每天下载60本(哪年哪月能看完我们暂时不讨论了)。但是知乎一条一条翻答案未免太麻烦了8而且好几条都是推荐差不多内容的不如爬取相关问题的所有答案做个汇总好啦数据获取虽说知乎有个“阅读”的话题但是我看了一下里面的问题不全是推荐书的若是都爬取下来可能80%的数据都是与书籍推荐无关的。所以我直接知乎搜索“书”选取了回答热度较高的6个问题还是利用Python进行爬虫进入页面展开答案点击“检查”网页不断往下拉我们可以在XHR找到明显带有“answer”字样的链接多看几个链接就能找到规律啦(offset051520……)挑自己感兴趣的字段就能“咻咻咻”爬下来了其他5个问题如法炮制得到以下总共获取9674个回答基本字段如下数据清洗以前总觉得爬数据最难只要爬下来了一切好说想怎么处理怎么处理想怎么分析怎么分析。但是这次爬虫的主要目的是列出一个高频出现的书籍清单大家的答案有言简意赅的(我暂且不批评这些同学会的不带书名号)也有这样推荐语(废话)一大堆的你瞧瞧回答字数最多的可有3万多字呢研究爬虫大概花了我一个小时但是怎么分析这些答案让我头痛了三个晚上先看一下主要的问题很多答案没有带书名号因此不能简单地用正则表达式知友们回答的时候会出现书名打错(“一句话顶一万句”)还有书名简写或表达方式不同的情况(比如关于哈利波特系列书籍的说法就有11种……)最重要的是我还不具有“看到一个词或一句话就分辨出哪些是书名哪些不是”的能力。我自己都不知道我怎么让Python判断提取呢……我也曾想过干脆只用《》来正则匹配内容结果发现44.96%的用户回答问题的时候非常不规范他们在回答中没有有使用书名号直接这样分析的话就相当于丢失了将近一半的数据除非……除非我有一个图书库里面有所有书的书名这样我只要遍历每个答案如果Ta提到了这本书就把这个书名提取出来最后再统计分析就好啦然而那句话怎么说来着想象很丰满现实很骨感。我并没有这样的图书库。利用现有的数据我只能勉强以另外55.04%个答案中出现的书名进行简单处理得到一个简陋的书名列表……然后再对每个答案进行遍历……个中辛酸就不提了提了也没用。因为并不是完美的解决之道只能勉强满足我本次爬虫的目的罢了不过就我走过的一些坑我还是列一下。虽然前方有很多坑但是大家能少进一个就少进一个吧数据分析在得到最终TOP书单之前我们按照惯例看看这些答案的基本情况。知乎后台性别显示的是0、1和-1通过研究具体两三个用户的资料我发现0表示女生1表示男生-1表示未知。看样子这6个答案下面男生的比例略高于女生。男生和女生回答问题的长度很接近说明大家都蛮勤奋的从互动角度来看男生答案人均点赞数略高于女生人均评论数却高出女生55%可能他们的答案比较具有争议性。不过读书这种事嘛本来就是男女老少皆宜的因此在这种话题下区别性应该不大。和正常(现代)人的作息很接近大部分答案是在白天的时候提交的其中有11%的用户在凌晨0到4点之间回答我觉得这部分人睡前肯定没有看书。从回答时间和点赞数的散点图来看一些高赞答案都是出现在早上8点到晚上8点之间这段时间大家精神充沛比较容易写出高质量答案养生Girl再次呼吁大家一定要早睡呀有人问睡不着怎么办我上一段不是说了嘛(自行体会)。前面也提到过答案字数最少的回答只有一个字飘。长度最长的有32210个字是我毕业论文长度的1.5倍。整体统计了一下84%的答案长度在1000字以内很符合大家碎片化阅读的习惯。然而另外的16%用户却获得了这些答案下93%的点赞数和72%的评论数。瞧瞧瞧(敲黑板)多么形象的二八法则实例快做笔记同学们后来看看我得到的这三天需要下载的书单(按照知友提到的频次排序)98本里面我看过30本那么我可以从剩下的68中去掉8本我绝对不想看的。然后每天下载20本。有人问为什么是TOP98不是100因为我觉得这样看起来比较少会更有动力“yes”所有书。作者Yura计算机科学与技术专业大四在读因在澳洲交换学习接触了大数据甚感兴趣。遂开公众号“Yura不说数据说”督促自己学习数据分析欢迎大家关注我的个人公众号一起(监督我)学习。责任编辑