租号网站建设,沈阳海外模板建站,律师如何在网上推广,广州seo工作室scrapy_redis概念作用和流程
学习目标
了解 分布式的概念及特点了解 scarpy_redis的概念了解 scrapy_redis的作用了解 scrapy_redis的工作流程 在前面scrapy框架中我们已经能够使用框架实现爬虫爬取网站数据,如果当前网站的数据比较庞大, 我们就需要使用分布式来更快的爬取数…scrapy_redis概念作用和流程
学习目标
了解 分布式的概念及特点了解 scarpy_redis的概念了解 scrapy_redis的作用了解 scrapy_redis的工作流程 在前面scrapy框架中我们已经能够使用框架实现爬虫爬取网站数据,如果当前网站的数据比较庞大, 我们就需要使用分布式来更快的爬取数据 1. 分布式是什么 简单的说 分布式就是不同的节点服务器ip不同共同完成一个任务 2. scrapy_redis的概念
scrapy_redis是scrapy框架的基于redis的分布式组件
3. scrapy_redis的作用 Scrapy_redis在scrapy的基础上实现了更多更强大的功能具体体现在 通过持久化请求队列和请求的指纹集合来实现
断点续爬分布式快速抓取
4. scrapy_redis的工作流程
4.1 回顾scrapy的流程 思考那么在这个基础上如果需要实现分布式即多台服务器同时完成一个爬虫需要怎么做呢
4.2 scrapy_redis的流程
在scrapy_redis中所有的待抓取的request对象和去重的request对象指纹都存在所有的服务器公用的redis中所有的服务器中的scrapy进程公用同一个redis中的request对象的队列所有的request对象存入redis前都会通过该redis中的request指纹集合进行判断之前是否已经存入过在默认情况下所有的数据会保存在redis中 小结
scarpy_redis的分布式工作原理
在scrapy_redis中所有的待抓取的对象和去重的指纹都存在公用的redis中所有的服务器公用同一redis中的请求对象的队列所有的request对象存入redis前都会通过请求对象的指纹进行判断之前是否已经存入过