当前位置: 首页 > news >正文

宜昌百度网站建设好用建站模板

宜昌百度网站建设,好用建站模板,建站公司人员配置,上海注册公司注册在哪里比较好爬取网址#xff1a;https://search.jd.com/Search?keywordpython爬取信息#xff1a;书名#xff0c;价格#xff0c;出版社#xff0c;日期爬取方式#xff1a;scrapy框架 splash存储方式#xff1a;csv页面如下#xff0c;可以看到python相关的图书超过6000本。不…爬取网址https://search.jd.com/Search?keywordpython爬取信息书名价格出版社日期爬取方式scrapy框架 splash存储方式csv页面如下可以看到python相关的图书超过6000本。不过最终只能看到100页也就是6000本的信息。京东图书每个页面有60本图书页面打开时首先只加载30本书通过滚动条的下拉动态加载后面的30本书。所以我们要执行一下JavaScript代码使页面滚动到页面底部把剩余的30本书加载出来。翻页位于页面的底部可以定位翻页部分然后用scrollIntoView(true)实现拖拽显示翻页部分或使用window.scroll(起始点“,“结束点”)来实现页面的滚动加载。翻页规律第一页是page1,动态加载部分是page2,第二页是page3动态加载部分是page4。由于动态加载部分由splash完成对于翻页来说就是1,3,5向上叠加即可。spider的代码为# -*- coding: utf-8 -*-import scrapyfrom scrapy_splash import SplashRequestlua_script function main(splash)splash:go(splash.args.url) --打开页面splash:wait(2) --等待加载splash:runjs(document.getElementsByClassName(page)[0].scrollIntoView(true)) --运行js代码splash:wait(2) --等待加载return splash:html() --返回页面数据endclass JdPythonSpider(scrapy.Spider):name jd_pythonallowed_domains [jd.com]keyword python #填关键字base_urls https://search.jd.com/Search?keyword{}encutf-8.format(keyword)##重写start request方法指向parse_urlsdef start_requests(self):yield scrapy.Request(self.base_urls,callbackself.parse_urls)def parse_urls(self,response):pageNum response.xpath(//span[classfp-text]/i/text()).extract_first()# 构造每页的url向Splash的execute端点发送请求for i in range(pageNum):url {}page{}.format(self.base_urls,i*21)yield SplashRequest(url,endpointexecute,args{lua_source,lua_script},cache_args[lua_source],callbackself.parse)def parse(self, response):# 获取一个页面中每本书的名字和价格等for sel in response.css(ul.gl-warp.clearfix li.gl-item):yield {name: sel.css(div.p-name).xpath(string(.//em)).extract_first(),price: sel.css(div.p-price i::text).extract_first(),press: sel.css(span.p-bi-store a::text).extract_first(),date: sel.css(span.p-bi-date::text).extract_first(),}settings.py中添加以下信息SPLASH_URL http://192.168.99.100:8050 #splash服务地址#开启scrapy_splash的两个下载中间件并调整HttpCompressionMiddleware的次序DOWNLOADER_MIDDLEWARES {scrapy_splash.SplashCookiesMiddleware: 723,scrapy_splash.SplashMiddleware:725,scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware:810,}#设置去重过滤器DUPEFILTER_CLASS scrapy_splash.SplashAwareDupeFilter#支持cache_args(可选)SPIDER_MIDDLEWARES {scrapy_splash.SplashDeduplicateArgsMiddleware: 100,}USER_AGENT Mozilla/5.0 (Windows NT 10.0; WOW64) \AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3294.6 Safari/537.36ROBOTSTXT_OBEY FalseDOWNLOAD_DELAY 3在cmd运行scrapy crawl jd_python -o books.csv结果为注结果对data进行了降序排序。
http://www.pierceye.com/news/918162/

相关文章:

  • 马来西亚的网站后缀3d建模平台
  • 昆山建设工程安监站网站jsp网站开发好书
  • 策划书怎么写 范文泉州seo招聘
  • 网站建设的业务好做吗wordpress 首页静态
  • 做网站销售的话术网络广告策划方案
  • 企智网络网站建设公司社交信息共享网站开发外包
  • 网站建设168网站谁做的比较好
  • 邯郸移动网站建设公司wordpress页脚太高
  • 大型电子商务网站开发上海 网站建设 外包it
  • 设计得很好的企业网站wordpress 标签云
  • 杂志网站模板苏州设计网页网站好
  • 设计理论网站清远市发布
  • 长沙本土网站制作公司wordpress thegem
  • 网站后台 源码重庆电力公司网站
  • 泰安企业网站建设电话廉江手机网站建设公司
  • 自已建网站微信登录珠海绿网科技有限公司
  • 大良网站制作太原建筑公司网站
  • 网站开发的交付文档抖音代运营费用明细
  • 自适应网站建设沈阳网站安全建设需求
  • 列表主题wordpress国外seo综合查询
  • 装修网站怎么做推广做百度网站每年的费用多少
  • 网站搭建免费视频教程省企联网站建设要求
  • 天津大学生专业做网站建设网站价格
  • 携程网站建设进度及实施过程文具电子商务网站开发内容
  • 怎么查看网站打开速度网站源码整站下载
  • 北京城乡住房建设部网站常见的网络营销推广方式有哪些
  • 做网站的成本费用钱宝网站怎么做任务
  • 网站上的格式用html怎么做部队网站设计
  • 帮客户做网站内容社交网站有哪些如何做
  • 网站开发与设计实训总结两千字公众号制作的网站开发