怎么建立自己的销售平台,图片优化,怎么自己建设公司网站,淘客网站代理scrapy框架组成及各部分作用
item pipelines:
用于存放需要存储数据的数据模型#xff0c;一般格式为#xff1a;
#需要存储多少中类型的数据就写多少行#xff0c;一般是key_value组合
数据名称#xff0c;即key scrapy.Field()spiders
用于解析返回来的response
im…
scrapy框架组成及各部分作用
item pipelines:
用于存放需要存储数据的数据模型一般格式为
#需要存储多少中类型的数据就写多少行一般是key_value组合
数据名称即·key scrapy.Field()spiders
用于解析返回来的response
import scrapy
from 项目名称.items import QSBKItem
#QSBKItem 在items.py中的一个类装有数据模型
......
item QSBKItem(字典中对应的keyitems.py中对应的模型名称)
#返回item,item是一个字典的形式将item返回给了engine
yield itemengine
爬虫引擎作为各个模块的中转站
pipelines
用于存储和过滤由spider爬取回来的数据,比如可以将数据存入数据库中等等
#这个函数是一定需要的用于接收返回过来的item数据并且执行保存和过滤数据的操作
def process_item(self,item,spider):......
#可有可无在打开爬虫时运行的函数一般是在需要爬虫在打开时执行某些操作时才需要该函数
def open_spider(self,spider):......
#可有可无在关闭爬虫时运行的函数一般是在需要爬虫在关闭时执行某些操作时才需要该函数
def close_spider(self,spider):......Download
用于执行spider发出的网页请求并且从网页中进行下载
scheduler
用于调度如调度多url的请求重复url的处理等
爬取多页数据
self.p 1
if self.p 10:next_url https://edu.csdn.net/courses/o280/pstr(self.p)url response.urljoin(next_url)#创建绝对url地址#再次调用parse函数来进行解析next_urlyield scrapy.Request(url url,callback self.parse)连接数据库的配置文件书写
ITEM_PIPELINES {#后面的数字越小执行的顺序越靠前是自动生成的educsdn.pipelines.Edu .... 300,educsdn.mysqlines.Edu .... 301
}MYSQL_HOSTlocalhostMYSQL_DATABASE 数据库的名称MYSQL_USER 用户名MYSQL_PASS 密码MYSQL_PORT 端口#一般为3306