小企业网站建设建议,做室内设计特别好的网站,上海网站设计大连,郑州seo管理系统运营1.前言本篇文章主要介绍python爬虫及对爬取的数据进行可视化分析#xff0c;本次介绍所用的网站是(https://www.duanwenxue.com/jingdian/zheli/)2.数据爬取2.1定位到爬取数据打开我们要爬取的网页#xff0c;右键选择检查#xff0c;在窗口中单击左上角箭头#xff0c;即可…1.前言本篇文章主要介绍python爬虫及对爬取的数据进行可视化分析本次介绍所用的网站是(https://www.duanwenxue.com/jingdian/zheli/)2.数据爬取2.1定位到爬取数据打开我们要爬取的网页右键选择检查在窗口中单击左上角箭头即可查看我们需要爬取的内容2.2爬虫实现方法我们要爬取一个网页首先我们需要向网页发送一个请求,然后用get方法抓取数据(例如我要爬取https://www.duanwenxue.com/jingdian/zheli/的内容)import requestsurl https://www.duanwenxue.com/article/5034441.htmldoc requests.get(url)print(doc.text)1234通过这个方法获得数据是整个网页的源码接下来我们接下来要从源码中找到并提取数据。Beautiful Soup 是 python 的一个库其最主要的功能是从网页中抓取数据。(例如我要获得https://www.duanwenxue.com/article/5035160.html的散文)import requestsfrom bs4 import BeautifulSoupurlhttps://www.duanwenxue.com/article/5034441.htmlhtmlrequests.get(url)html.encodinggbkdocBeautifulSoup(html.text,lxml)adoc.find(span,{id:audio-span})cdoc.find(div,{id:shangDiv})a.decompose() # 删除无用信息c.decompose()contdoc.find(div,{class:article-content}).findAll(p)contentfor i in cont:print(i.text)1234567891011121314输出结果人生实在当下生活唯有形态在奋斗。——余昌开当下就是人生实现梦想奋斗时。——余昌开人务必从今开始努力奋斗实现人生的理想。——余昌开人活着最务实的形态是现在正在奋斗人生美好的进行中。——余昌开版权作品未经《短文学》书面授权严禁转载违者将被追究法律责任。3.数据可视化分析数据可视化是数据分析很重要的一部分将数据进行可视化,更直观的呈现使数据更加客观、更具说服力。matplotlib是用来创建图表的工具包之一是一个Python 2D绘图库它可以在各种平台上以各种硬拷贝格式和交互式环境生成出具有出版品质的图形。3.1将短文学网的各类文章做一个统计柱形图plt.rcParams[font.sans-serif][SimHei]plt.figure(figsize(10,10))plt.xticks(rotation45)plt.title(各类文章数目)# 标题plt.xlabel(文章类型)#横坐标名字plt.ylabel(数量)#纵坐标名字plt.bar(x, y)for x,y in zip(x,y): plt.text(x,y,{f}.format(fy),hacenter,vabottom)plt.show()12345678910结果饼状图plt.figure(figsize(30, 30)) #设置大小plt.pie(y,labels x, autopct%1.1f%%)plt.axis(equal)plt.show()1234结果通过对柱形图和饼状图的观察可以发现在短文学中“散文随笔”“心情随笔”“散文诗”“散文文字”“经典语录”类的文学作品占大部分(82%)而其他类型的作品占小部分(18%)。3.2对某一类文章进行分析我们选择对励志文章的标题进行分析通过标题的重点词汇生成词云反映出这类文章的大致内容趋向于哪一方面。代码如下stopwords{你,我,的,自己}# 去掉无用的词word_cutjieba.cut(word_content)word_cut_join .join(word_cut)#把分词用空格连起来#生成词云wcWordCloud( font_pathsimsun.ttc,#设置字体 max_words100,#词云显示的最大词数 # maskmask_img,#设置背景图片 stopwordsstopwords, background_colorwhite#背景颜色 ).generate(word_cut_join)plt.imshow(wc)plt.axis(off)#去掉坐标轴plt.savefig(title.jpg)plt.show()12345678910111213141516结果可以看到多次出现的大学有 “河南”,“科技”,“大学”,“农学院”。以上便是本文全部内容代码只包含主要部分关于数据可视化还有其他几种方法具体可查看python使用Matplotlib画图。文章来源: blog.csdn.net作者Tbaodeng_T版权归原作者所有如需转载请联系作者。原文链接blog.csdn.net/Tbaodeng/article/details/111825063