当前位置: 首页 > news >正文

网站诊断网站seo诊断小黄猫传媒有限公司官方首页

网站诊断网站seo诊断,小黄猫传媒有限公司官方首页,手机网站栏目结构图,上海网站制作怎么样Python学习之路-爬虫进阶:爬虫框架雏形 代码实现分析 明确模块之间的逻辑关系 五个核心模块和三个内置的对象是关键模块#xff0c;需要优先实现 先抛开中间件#xff0c;分析下它们之间的逻辑关系是#xff1a; 构造spider中start_urls中的请求传递给调取器进行保存需要优先实现 先抛开中间件分析下它们之间的逻辑关系是 构造spider中start_urls中的请求传递给调取器进行保存之后从中取出取出的request对象交给下载的进行下载返回responseresponse交给爬虫模块进行解析提取结果如果结果是request对象重新交给调度器如果结果是item对象交给管道处理 以上的逻辑是在引擎中完成的 设计代码结构 首先给框架起一个名称如 scrapy_plus继续分类以及解耦的设计思想 把核心模块放置在一起 请求对象模块和响应对象模块统一作为http模块 数据对象单独作为一个分类 代码结构如下 -- scrapy_plus-- __init__.py-- core-- __init__.py-- spider.py-- scheduler.py-- downloader.py-- pipeline.py-- engine.py-- http-- __init__.py-- request.py-- response.py-- item.py到这里我们完成了框架的大致结构是设计那么接下来我们就需要实现模块中的具体内容了 request对象的封装 对HTTP基本的请求属性进行简单封装实现一个Request对象 # scrapy/http/request.py 封装Request对象class Request(object):框架内置请求对象设置请求信息def __init__(self, url, methodGET,\headersNone, paramsNone, dataNone):self.url url # 请求地址self.method method # 请求方法self.headers headers # 请求头self.params params # 请求参数self.data data # 请求体response对象的封装 对HTTP基本的响应属性进行简单封装实现一个Response对象 # scrapy/http/response.py 封装Response对象class Response(object):框架内置Response对象def __init__(self, url, status_code, headers, body):self.url url # 响应urlself.status_code status_code # 响应状态码self.headers headers # 响应头self.body body # 响应体item对象的封装 对数据进行简单封装实现Item对象 # scrapy/item.py item对象class Item(object):框架内置Item对象def __init__(self, data):# data表示传入的数据self._data data # 设置为简单的私有属性propertydef data(self):对外提供data进行访问一定程度达到保护的作用return self._data其中property的理解 property 能够让调用一个方法和调用一个属性一样容易即不用打括号property 能够让这个属性的值是只读的即不能够对其进行重新赋值达到一定的保护的目的 spider模块的封装 爬虫组件功能 构建请求信息(初始的)也就是生成请求对象(Request)解析响应对象返回数据对象(Item)或者新的请求对象(Request) 实现方案 实现start_requests方法返回请求对象实现parse方法返回Item对象或者新的请求对象 # scrapy_plus/core/spider.py 爬虫组件封装 from scrapy_plus.item import Item # 导入Item对象 from scrapy_plus.http.request import Request # 导入Request对象class Spider(object):1. 构建请求信息(初始的)也就是生成请求对象(Request)2. 解析响应对象返回数据对象(Item)或者新的请求对象(Request)start_url http://www.baidu.com # 默认初始请求地址 #这里以请求百度首页为例def start_requests(self):构建初始请求对象并返回return Request(self.start_url)def parse(self, response):解析请求并返回新的请求对象、或者数据对象return Item(response.body) # 返回item对象调度器模块的封装 调度器功能 缓存请求对象(Request)并为下载器提供请求对象实现请求的调度对请求对象进行去重判断实现去重方法_filter_request该方法对内提供因此设置为私有方法 实现方案 利用队列FIFO存储请求实现add_request方法添加请求接收请求对象作为参数实现get_request方法对外提供从队列取出的请求对象 # scrapy_plus/core/scheduler.py 调度器模块封住 # 利用six模块实现py2和py3兼容 from six.moves.queue import Queueclass Scheduler(object):1. 缓存请求对象(Request)并为下载器提供请求对象实现请求的调度2. 对请求对象进行去重判断def __init__(self):self.queue Queue()def add_request(self, request):添加请求对象self.queue.put(request)def get_request(self):获取一个请求对象并返回request self.queue.get()return requestdef _filter_request(self):请求去重# 暂时不实现pass下载器模块的封装 下载器功能 根据请求对象(Request)发起HTTP、HTTPS网络请求拿到HTTP、HTTPS响应构建响应对象(Response)并返回 实现方案 利用requests、urllib2等模块发请求这里使用requests模块实现get_response方法接收request请求对象作为参数发起请求获取响应 # scrapy_plus/core/downloader.py 下载器组件 import requests from scrapy_plus.http.response import Responseclass Downloader(object):根据请求对象(Request)发起HTTP、HTTPS网络请求拿到HTTP、HTTPS响应构建响应对象(Response)并返回def get_response(self, request):发起请求获取响应的方法# 1. 根据请求对象发起请求获取响应# 判断请求方法if request.method.upper() GET:resp requests.get(request.url, headersrequest.headers,\paramsrequest.params)elif request.method.upper() POST:resp requests.post(request.url,headersrequest.headers,\paramsrequest.params,datarequest.data)else:# 如果方法不是get或者post抛出一个异常raise Exception(不支持的请求方法)# 2. 构建响应对象,并返回return Response(resp.url, resp.status_code, resp.headers, resp.content)管道模块的封装 管道组件功能 负责处理数据对象 实现方案 实现process_item方法接收数据对象作为参数 # scrapy_plus/core/pipeline.py 管道组件封装class Pipeline(object):负责处理数据对象(Item)def process_item(self, item):处理item对象print(item: , item)引擎模块的封装 引擎组件功能 对外提供整个的程序的入口依次调用其他组件对外提供的接口实现整个框架的运作(驱动) 实现方案 利用init方法初始化其他组件对象在内部使用实现start方法由外部调用启动引擎实现_start_engine方法完成整个框架的运行逻辑具体参考上一小节中雏形结构引擎的逻辑 # scrapy_plus/core/engine.py 引擎组件 from scrapy_plus.http.request import Request # 导入Request对象from .scheduler import Scheduler from .downloader import Downloader from .pipeline import Pipeline from .spider import Spiderclass Engine(object):a. 对外提供整个的程序的入口b. 依次调用其他组件对外提供的接口实现整个框架的运作(驱动)def __init__(self):self.spider spider() # 接收爬虫对象self.scheduler Scheduler() # 初始化调度器对象self.downloader Downloader() # 初始化下载器对象self.pipeline Pipeline() # 初始化管道对象def start(self):启动整个引擎self._start_engine()def _start_engine(self):依次调用其他组件对外提供的接口实现整个框架的运作(驱动)# 1. 爬虫模块发出初始请求start_request self.spider.start_requests()# 2. 把初始请求添加给调度器self.scheduler.add_request(start_request)# 3. 从调度器获取请求对象交给下载器发起请求获取一个响应对象request self.scheduler.get_request()# 4. 利用下载器发起请求response self.downloader.get_response(request)# 5. 利用爬虫的解析响应的方法处理响应得到结果result self.spider.parse(response)# 6. 判断结果对象# 6.1 如果是请求对象那么就再交给调度器if isinstance(result, Request):self.scheduler.add_request(result)# 6.2 否则就交给管道处理else:self.pipeline.process_item(result)实现中间件模块 为什么需要中间件 中间件相当于一个钩子能够在其中对request对象和response响应根据特定的需求进行一些特定的处理 例如对于所有的request对象我们需要在其中对他添加代理或者是随机的User-Agent都可以在中间件中完成 完成爬虫中间件spider_middlewares # scrapy_plus/middlewares/spider_middlewares.py class SpiderMiddleware(object):爬虫中间件基类def process_request(self, request):预处理请求对象print(这是爬虫中间件process_request方法)return requestdef process_response(self, response):预处理数据对象print(这是爬虫中间件process_response方法)return response完成下载downloader_middlewares # scrapy_plus/middlewares/downloader_middlewares.py class DownloaderMiddleware(object):下载器中间件基类def process_request(self, request):预处理请求对象print(这是下载器中间件process_request方法)return requestdef process_response(self, response):预处理响应对象print(这是下载器中间件process_response方法)return response修改engine.py 加入中间件模块 # scrapy_plus/core/engine.py 引擎 a. 对外提供整个的程序的入口 b. 依次调用其他组件对外提供的接口实现整个框架的运作(驱动)from scrapy_plus.http.request import Request # 导入Request对象 from scrapy_plus.middlewares.spider_middlewares import SpiderMiddleware from scrapy_plus.middlewares.downloader_middlewares import DownloaderMiddlewarefrom .spider import Spider from .scheduler import Scheduler from .downloader import Downloader from .pipeline import Pipelineclass Engine(object):def __init__(self):......self.spider_mid SpiderMiddleware() # 初始化爬虫中间件对象self.downloader_mid DownloaderMiddleware() # 初始化下载器中间件对象......def _start_engine(self):依次调用其他组件对外提供的接口实现整个框架的运作(驱动)# 1. 爬虫模块发出初始请求start_request self.spider.start_requests()# 2. 把初始请求添加给调度器# 利用爬虫中间件预处理请求对象start_request self.spider_mid.process_request(start_request)self.scheduler.add_request(start_request)# 3. 从调度器获取请求对象交给下载器发起请求获取一个响应对象request self.scheduler.get_request()# 利用下载器中间件预处理请求对象request self.downloader_mid.process_request(request)# 4. 利用下载器发起请求response self.downloader.get_response(request)# 利用下载器中间件预处理响应对象response self.downloader_mid.process_response(response)# 5. 利用爬虫的解析响应的方法处理响应得到结果result self.spider.parse(response)# 6. 判断结果对象# 6.1 如果是请求对象那么就再交给调度器if isinstance(result, Request):# 利用爬虫中间件预处理请求对象result self.spider_mid.process_request(result)self.scheduler.add_request(result)# 6.2 否则就交给管道处理else:self.pipeline.process_item(result)观察结果 运行main.py文件查看结果 运行结果 这是爬虫中间件process_request方法 这是下载器中间件process_request方法 这是下载器中间件process_request方法 这是爬虫中间件process_response方法 item对象: scrapy_plus.item.Item object at 0x10759eef0
http://www.pierceye.com/news/429866/

相关文章:

  • 为什么百度搜索不到我的网站网站服务商排名
  • 深圳建设网站首页国土 住房与城乡建设部网站
  • wordpress拖拽式建站主题wordpress 类似软件
  • ps制作网站logo广西建设局网站
  • 专业网站建设公司排名wordpress上传媒体文件大小修改
  • 郑州app开发公司排名网站seo 文章转载 修改标题
  • 深圳网站备案查询成都建设施工安全协会网站
  • 做视频找素材的网站有哪些邢台做网站多少钱
  • 创世网站建设公司设计理念页面设计
  • 免费的网站模板昆明装饰企业网络推广
  • 怎样用微信做购物网站广州菜谱制作公司
  • 视频网站发展好应该怎么做wordpress移动支付免费
  • 青岛网站设计案例wordpress 转换成小程序
  • 展览中心网站建设优质的成都网站建设推
  • 建材网站模板济南建设集团网站
  • 合肥市建设建筑网站wordpress医院主题
  • 做ui要上那些网站完全免费网站源码
  • 集团企业网站建设建立网站有哪些步骤
  • 如何做自己的网站整合营销和链路营销
  • 外贸网站的公司介绍响应式布局代码例子
  • 校园网站的意义保定建设厅网站
  • 网站域名注册后怎么打开网站ip安装wordpress
  • 山西太原做网站网站开发上线流程
  • 江门网站建设多少钱网页服务器一年多少钱
  • 网站开发属于什么行业农商网站建设个人总结
  • 网站建设业务开展方案昆明市城市基本建设档案馆网站
  • 湖南网站托管做招聘网站排名
  • 主机屋免费网站空间网站建设安全标准
  • .net cms网站管理系统生态养殖网站模板
  • 国外网站一般公司网站是什么设计师做