当前位置: 首页 > news >正文

网站报价明细wordpress 自动

网站报价明细,wordpress 自动,网络舆情监测机制,网络运维工程师简历网络爬虫#xff0c;用一句话简单总结#xff0c;就是一种按照一定的规则#xff0c;自动的抓取万维网信息的程序或者脚本。写这篇文章的初衷是有个知友私信我说#xff0c;模仿了很多网上用Python写爬虫的例子#xff0c;但到了需要自己动手写爬虫的时候又不知道怎么写了… 网络爬虫用一句话简单总结就是一种按照一定的规则自动的抓取万维网信息的程序或者脚本。写这篇文章的初衷是有个知友私信我说模仿了很多网上用Python写爬虫的例子但到了需要自己动手写爬虫的时候又不知道怎么写了。我觉得出现这种情况还是很正常的至少我个人是这么过来的。这篇文章仅供初学者写爬虫程序时作为一个参考毕竟本人已经很久没写过爬虫程序了但爬虫程序的大体框架我还是很清晰的此篇展示的是我对爬虫的一些理解。之前写过的一些爬虫程序PythonCrawler有兴趣的朋友可以看看找找自信这些代码现在看来写的确实挺烂的 。写爬虫遵循的基本框架 我自己在写爬虫时一般基本遵循下面的框架形式按照这个框架来编写代码。演示实例 通过对[ONE]这个网站的爬取来演示上述模块的编写ONE网站的内容展示如下图所示。而数据我只爬取一张图片和一句箴言备注该演示远非最佳实践只是为了演示框架流程。url调度模块编写通过对ONE网站的分析发现它的翻页就是在url后面的数字上加一进入下一页。ROOT_URL http://wufazhuce.com/one/ URL_NUM 14 #14页之后才开始有数据def yield_url(ROOT_URL, URL_NUM):return ROOT_URL str(URL_NUM)网页下载模块编写import requests as rqdef get_html(url):return rq.get(url).content.decode(utf-8)数据抽取模块编写通过对图片和箴言查看元素可知相关代码镶嵌情况。因此可以编写数据抽取模块import redef get_data(html):img_url_regex re.compile(img src(.*?) alt /)cite_regex re.compile(div classone-cita(.*?)/div, re.S)img_url re.findall(img_url_regex, html)[0]cite re.findall(cite_regex, html)[0].strip()return img_url, cite 数据存储模块编写def save_data(img_url, cite, URL_NUM):with open(./{}.jpg.format(URL_NUM), wb) as fp:fp.write(rq.get(img_url).content)with open(./cite{}.txt.format(URL_NUM), w) as fp:fp.write(cite)return URL_NUM 1整合所有模块输出爬取结果 import re import requests as rqROOT_URL http://wufazhuce.com/one/ URL_NUM 14def yield_url(ROOT_URL, URL_NUM):return ROOT_URL str(URL_NUM)def get_html(url):return rq.get(url).content.decode(utf-8)def get_data(html):img_url_regex re.compile(img src(.*?) alt /)cite_regex re.compile(div classone-cita(.*?)/div, re.S)img_url re.findall(img_url_regex, html)[0]cite re.findall(cite_regex, html)[0].strip()return img_url, cite def save_data(img_url, cite, URL_NUM):with open(./{}.jpg.format(URL_NUM), wb) as fp:fp.write(rq.get(img_url).content)with open(./cite{}.txt.format(URL_NUM), w) as fp:fp.write(cite)return URL_NUM 1def main(ROOT_URL, URL_NUM, number):for _ in range(number):url yield_url(ROOT_URL, URL_NUM)html get_html(url) img_url, cite get_data(html) URL_NUM save_data(img_url, cite, URL_NUM)if __name__ __main__:try:main(ROOT_URL, URL_NUM, 20)except:pass结果展示总结✨本文的目的只是为了让初学者对写爬虫的大体流程有较为清晰的了解。天高任鸟飞海阔凭鱼跃每个人心中的爬虫框架流程各异实现方法各异自由发挥空间极大但有一点务必注意那就是遵守中华人民共和国的法律。
http://www.pierceye.com/news/532035/

相关文章:

  • 郑州平台网站建设福田欧曼图片
  • 企业网站策划应该怎么做杭州萧山网站建设
  • 南昌网站建设如何网站建设综合训练的实验目的
  • 连锁酒店网站建设软件开发分为哪几个步骤
  • 网站订单模板怎么可以自己做网站被百度收到
  • 网上做物理题赚钱的网站肥城住房和城乡建设局网站
  • 傻瓜式网站源码比较好的网站建设品牌升级
  • 买东西的网站德阳机械加工网
  • 企业网站建设的基本标准是广告公司运作模式
  • 做推广网站的文章电动汽车排名前十名
  • 宜州网站建设服务网页生成长图 iphone
  • 网站关键词seo费用广告设计教学大纲
  • 网站开发视频 百度云自己做网站卖东西
  • 二级网站建设费用品牌广告投放
  • 西宁做网站君博认同门户网站建设实施方案
  • 外贸公司做网站该去哪里找萝岗手机网站建设
  • 网站建设的商业目的惠州网站建设培训
  • 一个网站备案多个域名吗中国建设工程信息网官网入口
  • 广告网站设计哪家快做网站一般注册哪几类商标
  • 学网站建设有前途吗网站对话窗口怎么做
  • 云南昆明做网站wordpress备份文件
  • 连云港市网站建设汕头制作手机网站
  • 印度做网站wordpress 锁定地址
  • 做网站的服务器带宽一般多少游戏开发培训机构
  • 网站设计制作培训微信开放平台文档
  • 私人申请建设网站多少钱html如何建网站
  • 网站怎么在微博推广石家庄模板建站平台
  • 贵阳网站开发方舟网络wordpress静态化链接
  • 如何建设一个公司网站英文网站建设多少钱
  • 国外做水广告网站大全app开发公司查询