自动发货网站建设,主题网站的设计方案,网站设计制作排名,网络营销竞价推广Python 网络爬虫入门#xff1a;Spider man的第三课 写在最前面从requests到scrapy利用scrapy爬取目标网站更多内容 结语 写在最前面
有位粉丝希望学习网络爬虫的实战技巧#xff0c;想尝试搭建自己的爬虫环境#xff0c;从网上抓取数据。
前面有写一篇博客分享#xff0… Python 网络爬虫入门Spider man的第三课 写在最前面从requests到scrapy利用scrapy爬取目标网站更多内容 结语 写在最前面
有位粉丝希望学习网络爬虫的实战技巧想尝试搭建自己的爬虫环境从网上抓取数据。
前面有写一篇博客分享但是内容感觉太浅显了 【一个超简单的爬虫demo】探索新浪网使用 Python 爬虫获取动态网页数据
本期邀请了擅长爬虫的朋友PoloWitty来撰写这篇博客。通过他的专业视角和实战经验一步步引导我们入门成为一名数据探索的“Spider Man”。
【Python网络爬虫入门教程1】成为“Spider Man”的第一课HTML、Request库、Beautiful Soup库 【Python网络爬虫入门教程2】成为“Spider Man”的第二课观察目标网站、代码编写 【Python网络爬虫入门教程3】成为“Spider Man”的第三课从requests到scrapy、爬取目标网站 随着互联网数据的指数级增长了解如何有效地提取这些信息变得越来越重要。无论是文本模型如ChatGPT还是视觉模型如Stable Diffusion它们的训练数据大多来源于互联网的海量数据。在这个日新月异的大数据时代爬虫也算是其中不得不点的一项基础技能树了。
本系列文章将深入浅出地介绍Python网络爬虫的基础知识和技术从 Requests 库到 Scrapy 框架的 入门级 使用为你开启python网络爬虫的大门成为spider man的一员并最终以ScrapeMe网站作为目标示例爬取下网站上的可爱又有趣的宝可梦照片。 在开始之前还要啰嗦几句叠个甲网络爬虫虽然强大但在使用时必须遵守法律法规和网站的爬虫协议。不违法爬取数据遵守相关法律法规哦~ 这是本系列的第三篇文章将会以ScrapeMe网站作为示例展示如何利用scrapy库更好的来对网站上的宝可梦图片进行爬取。 文章目录 写在最前面从requests到scrapy利用scrapy爬取目标网站更多内容 结语 从requests到scrapy
当谈到网络爬虫时起初我们可能会选择简单的方案比如使用requests和Beautiful Soup这样的工具就像手工艺者用胶水和剪刀来完成手工艺品。但是当我们的爬虫任务变得更为复杂、庞大时我们就需要更高效、更强大的工具。
这时候Scrapy登场了它就像是一台全能机器人助手能够应对各种爬虫任务。通过Scrapy我们可以创建整个爬虫项目定义抓取规则和流程。它能够并行抓取多个页面就像是多线程的大明星更棒的是它内置了各种功能比如自动的请求调度、页面解析以及数据存储。简直就像是一套量身定制的工具箱让我们更轻松地面对爬虫世界的挑战。
具体到我们在第二课中实现的简单爬虫程序运行过程序的小伙伴可能会发现爬取的速度并不是很快而如果要自己实现并行不仅需要了解并行的相关知识还要做好并行程序之间的通讯调度等等。而Scrapy框架则可以直接帮我们自动完成这些功能我们仅需要关注于单个线程代码的实现即可是不是很方便呢
利用scrapy爬取目标网站
首先我们需要利用pip install Scrapy命令下载Scrapy包。
为了创建一个完整的scrapy项目我们可以使用其提供的命令行工具进行创建在命令行中输入scrapy startproject spider我们可以新建一个名为spider的全新scrapy项目在这个项目目录下包含以下一些文件
.
├── scrapy.cfg
└── spider├── __init__.py ├── items.py ├── middlewares.py├── pipelines.py├── settings.py # 项目配置文件└── spiders # 用于放置你的爬虫程序的目录└── __init__.py
除了上述给出注释的文件其他文件里的内容可以暂时不进行理会感兴趣的同学可以在网上查找相关内容进行学习。
然后我们进入spider/spiders目录下在命令行中输入scrapy genspider pokemon scrapeme.live/shop/ 创建一个名为pockmon的爬虫一个爬虫项目下可以又多个爬虫用于爬取scrapme.live/shop/网页。
此时在spider/spiders目录下我们便可以发现我们的爬虫程序pokemon.py它当前的内容为自动填充的结果
import scrapyclass PokemonSpider(scrapy.Spider):name pokemonallowed_domains [scrapeme.live]start_urls [http://scrapeme.live/]def parse(self, response):pass
接下来我们需要向其中填入新的内容并可以使用scrapy crawl pokemon -O image_urls.csv命令运行该爬虫得到我们想要的结果
import scrapy
import requestsdef download_from_url(url:str):利用requests库从相应的图片链接中下载对应的图片结果会保存到results文件夹中filename url.split(/)[-1]with open(f../results/{filename},wb) as fp:fig_response requests.get(url)fp.write(fig_response.content)class PokemonSpider(scrapy.Spider):name pokemonallowed_domains [scrapeme.live]start_urls [fhttps://scrapeme.live/shop/page/{pageNum}/?orderbypopularity for pageNum in range(1,49)] # 所有的page链接def parse(self, response):image_urls response.css(img) # 找到所有的img对应的位置for image_url in image_urls:url image_url.attrib[src]download_from_url(url)yield {image_url:url}
其中PokemonSpider继承了scrapy.Spider类会使用name属性命名该爬虫并将请求限制在allowed_domains内以start_urls开始进行爬取。在parse()函数中会得到一个response对象这个对象其实就很类似于之前使用Beautiful Soup解析后的DOM树我们可以直接使用repoonse.css()方法获取到网页中以相应css标签进行标记的内容最后的yield会将每次parse的图像链接保存至image_urls.csv输出文件中。而相应的下载的图片依旧是在results文件夹下。
而想要使用scrapy让爬虫爬取速度更快加大并发量只需要在setting.py中新加入一行CONCURRENT_REQUESTS 256即可hhh是不是so easy呢
更多内容
Scrapy本身还有非常非常多的可拓展空间当前成熟的爬虫程序中有很多便是使用scrapy进行编写的。而本课程作为入门课程基本也就要到此为止了如果还想学习更多关于scrapy的相关知识可以阅读Scrapy Tutorial或者是网上的其他进阶课程。
结语
我们已经一起初步探索了网络爬虫的精彩世界我们从HTML背景知识的介绍开始深入理解了requests和Beautiful Soup这两个强大的工具。然后我们在第二篇中利用这些知识和工具成功爬取了一个网站上所有宝可梦的图片获得了丰富的数据。
而第三篇则让我们迈入了更高级的领域学习了如何使用Scrapy库来处理更大规模的爬虫任务。Scrapy让我们更高效、更自动化地抓取了目标网站的宝可梦图片为我们的爬虫之旅增添了更多神奇的色彩并为之后更复杂的任务打下坚实的基础。
通过这三篇课程我们不仅仅学到了技术知识更领略到了爬虫世界的广阔无垠。爬虫不仅是获取数据的手段更是对互联网深度探索的一种方式。希望这些课程能为你的学习之路增添一些乐趣并为你今后在数据获取和应用的旅程中提供帮助。愿你在这片广阔的数据海洋中畅游自如发现更多精彩
了爬虫世界的广阔无垠。爬虫不仅是获取数据的手段更是对互联网深度探索的一种方式。希望这些课程能为你的学习之路增添一些乐趣并为你今后在数据获取和应用的旅程中提供帮助。愿你在这片广阔的数据海洋中畅游自如发现更多精彩