当前位置: 首页 > news >正文

福州网站建设咨询数字化展厅设计方案

福州网站建设咨询,数字化展厅设计方案,WordPress自动发英文文章,如何做地方网站目标 在实际开发过程中#xff0c;我们所需要的数据往往需要通过多个页面的数据汇总得到#xff0c;通过列表获取到的数据只有简单的介绍。站在Scrapy框架的角度来看#xff0c;实际上就是考虑如何处理一个item包含多级页面数据的问题。本文将以获取叶子猪网站的手游排行榜及…目标 在实际开发过程中我们所需要的数据往往需要通过多个页面的数据汇总得到通过列表获取到的数据只有简单的介绍。站在Scrapy框架的角度来看实际上就是考虑如何处理一个item包含多级页面数据的问题。本文将以获取叶子猪网站的手游排行榜及手游详情为学习案例来解决这个问题。 版本 Scrapy 2.12.0 实战 第一步搭建Scrapy框架。略过如果不会搭建的通过可以看我之前的Scrapy入门文章。 第二步通过打开目标网页查看网页代码我们可以的到手游排行榜的基础信息这里我们只获取标题。 import scrapyclass SytopSpider(scrapy.Spider):name sytopallowed_domains [sy.yzz.cn]start_urls [http://sy.yzz.cn/news/14324-1.shtml]def parse(self, response):a_list response.xpath(//ul[classitem-pt-list]/li/div[1]/a)for a in a_list:# 标题alt a.xpath(./img/alt).get()print(alt) 第三步进入二级页面获取描述信息。此时日志打印可以看到单个游戏的信息并没有组合起来。 import scrapyclass SytopSpider(scrapy.Spider):name sytopallowed_domains [sy.yzz.cn]start_urls [http://sy.yzz.cn/news/14324-1.shtml]def parse(self, response):a_list response.xpath(//ul[classitem-pt-list]/li/div[1]/a)for a in a_list:# 标题alt a.xpath(./img/alt).get()print(alt)# 二级页面的urlinfo_url a.xpath(./href).get()print(f二级页面的url是{info_url})meta {alt: alt}yield scrapy.Request(urlinfo_url, callbackself.parse_info)def parse_info(self, response):p_list response.xpath(//div[classcontent]//p)for p in p_list:contentp.xpath(string(.)).get()print(content) 第四步组合item数据。scrapy.Request方法中的meta参数很重要它实现了深度爬取。比如在爬取多层级页面时使用 meta 参数传递父页面的信息到子页面。 import scrapyfrom yezizhu.items import YezizhuItemclass SytopSpider(scrapy.Spider):name sytopallowed_domains [sy.yzz.cn]start_urls [http://sy.yzz.cn/news/14324-1.shtml]def parse(self, response):a_list response.xpath(//ul[classitem-pt-list]/li/div[1]/a)for a in a_list:# 标题alt a.xpath(./img/alt).get()# 二级页面的urlinfo_url a.xpath(./href).get()meta {alt: alt}yield scrapy.Request(urlinfo_url, callbackself.parse_info,metameta)def parse_info(self, response):p_list response.xpath(//div[classcontent]//p)print(start)alt response.meta[alt]print(alt)contentfor p in p_list:contentcontent\np.xpath(string(.)).get()print(content) 第五步创建item属性。 class YezizhuItem(scrapy.Item):alt scrapy.Field()content scrapy.Field() 第六步传递item属性值并将item对象传递给管道。 import scrapyfrom yezizhu.items import YezizhuItemclass SytopSpider(scrapy.Spider):name sytopallowed_domains [sy.yzz.cn]start_urls [http://sy.yzz.cn/news/14324-1.shtml]def parse(self, response):a_list response.xpath(//ul[classitem-pt-list]/li/div[1]/a)for a in a_list:# 标题alt a.xpath(./img/alt).get()# 二级页面的urlinfo_url a.xpath(./href).get()meta {alt: alt}yield scrapy.Request(urlinfo_url, callbackself.parse_info,metameta)def parse_info(self, response):p_list response.xpath(//div[classcontent]//p)print(start)alt response.meta[alt]print(alt)contentfor p in p_list:contentcontent\np.xpath(string(.)).get()print(content)top_contentYezizhuItem(altalt, contentcontent)yield top_content 第七步在settings.py文件中开启管道。 ITEM_PIPELINES {yezizhu.pipelines.YezizhuPipeline: 300, } 第八步在管道中设置下载数据并启动项目。 import jsonclass YezizhuPipeline:# 在爬虫文件开始之前就执行的方法def open_spider(self, spider):self.fp open(C:\\Users\\Administrator\\Desktop\\test\\a.json, w, encodingutf-8)self.fp.write([)def process_item(self, item, spider):line json.dumps(dict(item), ensure_asciiFalse) ,\nself.fp.write(line)return item# 在爬虫文件执行之后再执行的方法def close_spider(self, spider):# 删除最后一个多余的逗号并关闭 JSON 数组self.fp.seek(self.fp.tell() - 3, 0)self.fp.write(\n])self.fp.close()
http://www.pierceye.com/news/691005/

相关文章:

  • 浙江金顶建设公司网站房产获客软件
  • 什么网站比较容易做python做网站服务器
  • 东城网站建设微信小程序商店怎么开
  • 企业网站源码千博网站推广怎么做流量大
  • 福州最好的网站建设服务商浙江华临建设集团有限公司网站
  • cdr 做网站支付宝小程序开发者工具
  • 建一个全部由自己控制的网站需要多少钱手机网站大全
  • 酒店电子商务网站策划书网站排名下降的原因
  • 成都网站制作公司报价成都装修公司哪家好
  • 用自己的电脑做网站需要备案吗wordpress rss教程
  • 洛阳网站搭建江西网站建设价格低
  • 戴尔网站建设的目的济宁哪里有做网站的
  • 给单位做网站需要多少钱wordpress手机编辑
  • 网站开发实验报告总结怎样搭建微网站
  • 诸暨有哪些制作网站公司代理品牌
  • jsp mysql 网站开发响应网官方网站
  • 小白网站建设教程服务器域名多少钱
  • 网站建设预付款比例网站平台建设公司经营范围
  • 付费阅读网站代码CMS源码就可以做网站吗
  • 企业网站用视频做首页wordpress 多主题插件下载
  • 阿里巴巴网官方网站新公司在哪做网站
  • 邢台专业做网站报价做一门户网站价格
  • 中山企业手机网站建设设计方案翻译
  • 江苏省品牌专业群建设专题网站wordpress 返利 插件
  • 建设部网站官网设计排版网站
  • 企业网站建设应避免数据孤岛网站建设费入何科目
  • wordpress数据量大网站访问石家庄网站建设招商
  • 公司核名在哪个网站免费申请无限流量卡
  • 做网站和网页的目的和作用是什么山西2地又检出阳性
  • 自助网站建设推广优化策略wordpress中文采集插件