当前位置: 首页 > news >正文

苏州企业网站建设设计制作公司wordpress说明类主题

苏州企业网站建设设计制作公司,wordpress说明类主题,凡科app,网站的整体风格1、Scrapy框架初识#xff08;点击前往查阅#xff09; 2、Scrapy框架持久化存储#xff08;点击前往查阅#xff09; 3、Scrapy框架内置管道 4、Scrapy框架中间件#xff08;点击前往查阅#xff09; Scrapy 是一个开源的、基于Python的爬虫框架#xff0c;它提供了…1、Scrapy框架初识点击前往查阅 2、Scrapy框架持久化存储点击前往查阅 3、Scrapy框架内置管道 4、Scrapy框架中间件点击前往查阅 Scrapy 是一个开源的、基于Python的爬虫框架它提供了强大而灵活的工具用于快速、高效地提取信息。Scrapy包含了自动处理请求、处理Cookies、自动跟踪链接、下载中间件等功能 Scrapy框架的架构图先学会再来看就能看懂了  一、内置管道图片视频 1sttings设置 # 用于在指定目录下创建一个保存图片的文件夹。 IMAGES_STORE ./imgs 其他的设置不理解的可以参考 Scrapy框架初识 2数据分析 详细见图片中注视哦 代码 import scrapy from ..items import CsdnItemclass ImgSpider(scrapy.Spider):# 爬虫文件唯一标识name img# allowed_domains [www.xxx.com]# 发起请求的url列表start_urls [https://image.so.com/zjl?sn0chwallpaper]def parse(self, response):# 获取返回数据根据分析得到数据是json格式的img_data response.json()# 根据数据分析我们需要数据在list中for url in img_data[list]:# 循环获取到图片的标题和urlimg_title url[title]img_url url[imgurl]# 实例化item对象item CsdnItem()# 往item中封装数据item[img_title] img_titleitem[img_url] img_url# 将item提交给管道yield item 3创建item对象 详细见图片中注视哦 代码 import scrapyclass CsdnItem(scrapy.Item):# define the fields for your item here like:# 变量随便命名scrapy.Field() 是固定写法img_title scrapy.Field()img_url scrapy.Field() 4提交管道持久化存储 4.1模块安装  pip install pillow4.2代码分析 配合下方图片 1、首先导入 ImagesPipeline 模块然后class类继承。2、重新构建三个固定函数用于图片的批量下载和保存的操作。 get_media_requests函数负责对图片进行请求发送获取图片二进制的数据。 itme获取爬虫数据传过来的数据这个不懂理解看这个item相关知识yield发起请求这个是固定写法参数意思可以看图中注释。file_path函数负责指定保存图片的名字。 利用requests来获取上面传过来的数据。return返回的值就是图片的名字和后缀item_completed函数用于将item对象传递给下一个管道。 代码 import scrapy from scrapy.pipelines.images import ImagesPipeline # 导入模块class CsdnPipeline(ImagesPipeline): # ImagesPipeline括号内加入这个 是面向对象继承属于面向对象知识。# 重新构建三个固定函数用于图片的批量下载和保存的操作。def get_media_requests(self, item, info): # 该函数是负责对图片进行请求发送获取图片二进制的数据# 可以通过item参数接收爬虫文件提交过来的item对象img_title item[img_title]img_url item[img_url]# 对图片地址发起请求(参数1参数2) 参数1:url 参数2请求传参可以将数据传给 file_path 下面这个函数yield scrapy.Request(img_url, meta{img_title: img_title})def file_path(self, request, responseNone, infoNone, *, itemNone): # 负责指定保存图片的名字# 接收 get_media_requests 函数中通过meta发送过来的数据。img_title request.meta[img_title]# 给图片名字带上后缀img_title img_title .jpg# 然后返回图片名字return img_titledef item_completed(self, results, item, info): # 用于将item对象传递给下一个管道return item5结果展示与总结 为什么会在这个文件夹中呢因为刚开始的 settings 中我们创建并指定了这个文件夹 补充在设置 settings 中还可以设置图片的缩略图尺寸。 代码流程 1.在爬虫文件中进行图片/视频的链接提取 2.将提取到的链接封装到items对象中提交给管道 3.在管道文件中自定义一个父类为ImagesPipeline的管道类且重写三个方法即可 def get_media_requests(self, item, info):接收爬虫文件提交过来的item对象然后对图片地址发起网路请求返回图片的二进制数据def file_path(self, request, responseNone, infoNone, *, itemNone)指定保存图片的名称 def item_completed(self, results, item, info)返回item对象给下一个管道类 二、内置管道文件 1sttings设置 # 用于在指定目录下创建一个保存文件的文件夹。 FILES_STORE ./file 其他的设置不理解的可以参考 Scrapy框架初识 2数据分析 详细见图片中注视哦比较简单不做过多分析了 代码 import scrapy from ..items import CsdnItem # 将item模块导入class FileSpider(scrapy.Spider):# 爬虫文件唯一标识name file# allowed_domains [www.xxx.com]# 发起请求的url列表start_urls [https://docs.twisted.org/en/stable/core/examples/]def parse(self, response):# 解析到url列表url_list response.xpath(//section[idexamples]/section[1]//ul//a/href).extract()for url in url_list: # 分析得到URL不全。# 利用字符串分割拼接成一个完整的。url url.split(../../)[-1]download_url https://docs.twisted.org/en/stable/ url# 文件名称就取链接的最后的title url.split(/)[-1]# 创建item对象item CsdnItem()# 封装值item[file_urls] download_urlitem[file_title] title# 将item提交给管道yield item 3创建item对象 详细见图片中注视哦与前面不同的是有2个字段是必须存在的。 4提交管道持久化存储 4.1模块安装  pip install pillow4.2代码分析 配合下方图片 1、首先导入FilesPipeline 模块然后class类继承。2、重新构建三个固定函数用于文件的批量下载和保存的操作。 get_media_requests函数负责对文件进行请求获取图片二进制的数据。 itme获取爬虫数据传过来的数据这个不懂理解看这个item相关知识yield发起请求这个是固定写法参数意思可以看图中注释。file_path函数负责指定保存文件的名字。 利用requests来获取上面传过来的数据。return返回的值就是文件的名字item_completed函数用于将item对象传递给下一个管道。 代码  import scrapy from scrapy.pipelines.files import FilesPipeline # 导入模块class CsdnPipeline(FilesPipeline): # ImagesPipeline括号内加入这个 是面向对象继承属于面向对象知识。# 重新构建三个固定函数用于文件的批量下载和保存的操作。def get_media_requests(self, item, info): # 该函数是负责对文件url进行请求获取文件二进制的数据# 可以通过item参数接收爬虫文件提交过来的item对象file_title item[file_title]file_urls item[file_urls]# 对文件地址发起请求(参数1参数2) 参数1:url 参数2请求传参可以将数据传给 file_path 下面这个函数yield scrapy.Request(file_urls, meta{file_title: file_title})def file_path(self, request, responseNone, infoNone, *, itemNone): # 负责指定保存文件的名字# 接收 get_media_requests 函数中通过meta发送过来的数据。file_title request.meta[file_title]# 然后返回文件名字return file_titledef item_completed(self, results, item, info): # 用于将item对象传递给下一个管道return item 5结果展示与总结 代码流程 在spider中爬取要下载的文件链接将其放置于item中的file_urls字段中存储 spider提交item给FilesPipeline管道 当FilesPipeline处理时它会检测是否有file_urls字段如果有的话则会对其进行文件下载 下载完成之后会将结果写入item的另一字段files Item要包含file_urls和files两个字段
http://www.pierceye.com/news/73096/

相关文章:

  • 广西网站建设服务好wordpress建个人博客
  • 做黑网站吗wordpress注册文件
  • 做网站的框架遵义市建设厅网站
  • 购物网站策划案营销方案论文
  • 定期更新网站中国做的电脑系统下载网站
  • 做安全题目是哪个网站wordpress商城主体
  • 网站建设公司基本流程我想建网站
  • 网站怎么做背景nginx wordpress 404.php
  • 做网站准备材料做网站市场价格多少
  • 山东网站设计公司广州网络公关公司
  • 网站建设体会中国建设劳动协会网站
  • 如何做一个简单的网站代练中介网站有得做吗
  • 建个公司网站需要多少钱注册会计师报名条件
  • 怎样用自己的电脑做网站wordpress设置登陆口
  • 房地产培训网站建设wordpress 注册密码
  • 单位门户网站是什么建设电商网站流程
  • 先建网站还是先做网页东坑镇网站建设
  • 李沧网站建设电话网站开发合同官司
  • 可以提供排版的网站app开发需要哪些知识
  • asp网站设计代做空壳网站主体注销
  • 陵水媒体建站哪家好wordpress最大文件
  • 建设工程询价网站有哪些个人网站的搭建
  • 山西众邦建设集团网站ps在线网页版
  • 网站建设定制网站建设公司哪家好专业郑州网站建设
  • 深圳做网站的wordpress调用排序从大到小
  • 百度电脑版登录网站企业管理公司介绍
  • dw做的网站怎么上传图片网站建设diy
  • 建个网站需要多少钱费用下载小程序安装
  • 外贸网站建设推广公司前景如何5g天天奭5g天天运动网站代码
  • 自己做网站好还是购买网站好logo制作在线