当前位置: 首页 > news >正文

网站开发的趋势阿里云 wordpress 慢

网站开发的趋势,阿里云 wordpress 慢,做啊免费网站,网站建设外包平台背景#xff1a; ​ 昨天我们讲了讲关于seleium的一些基础操作#xff0c;今天讲讲如何将seleium和爬虫结合起来#xff0c;可以使用selenium获取网页的动态加载数据#xff0c;可以使用selenium获得cookie#xff0c;这两个是比较常用的。我将一一展开。 实战案例…背景 ​ 昨天我们讲了讲关于seleium的一些基础操作今天讲讲如何将seleium和爬虫结合起来可以使用selenium获取网页的动态加载数据可以使用selenium获得cookie这两个是比较常用的。我将一一展开。 实战案例 获取XHR动态加载数据 思考在爬虫中为什么需要使用seleniumselenium和爬虫之间的关联是什么 便捷的爬取动态加载数据可见即可得 我发现大家对动态加载数据和请求包中的数据没有一个特别清晰的认识。 selenium获得网页数据是经过多个数据包发送请求共同渲染后的数据上图片 记住这个元素页面是有多个网络请求共同整合出来的数据即下面网络请求数据包加载渲染后的 要求https://movie.douban.com/typerank?type_name%E5%96%9C%E5%89%A7type24interval_id100:90action 解析其相关数据电影名等等。 from selenium import webdriver from time import sleep from selenium import webdriver from webdriver_manager.chrome import ChromeDriverManager path rD:\Downloads\xx\chromedriver-win64\chromedriver.exe urlhttps://movie.douban.com/typerank?type_name%E5%96%9C%E5%89%A7type24interval_id100:90action driver webdriver.Chrome(executable_pathpath)driver.get(url) sleep(5) print(driver.page_source)如上图我们获取的一定是渲染加载完成后的数据接下来对网页源码数据进行解析即可。如果想获取全部大家就注入js脚本使用selenium让其不断向下滑动即可。 获取分页数据 ​ 这个案例是之前写的可能代码以已经失效了但是爬虫学习学的一定是思路不是代码在当前这个大时代会用chatgpt的程序员才不会被淘汰。 要求获取前5页的企业名称 实现思路将每一页源码数据存到一个列表中最后对列表中的每一项进行数据解析即可获得首页源码数据后使用selenium对下一页进行点击然后不断循环。 #获取前5页的企业名称 from selenium import webdriver import time from lxml import etreebro webdriver.Chrome(executable_path./chromedriver) url http://scxk.nmpa.gov.cn:81/xk/ bro.get(urlurl) time.sleep(2) #获取页面源码数据(page_source) page_text bro.page_source #将前5页的页面源码数据存储到该列表中 all_page_text_list [page_text] for i in range(4):#找到下一页标签next_page_btn bro.find_element_by_xpath(//*[idpageIto_next])# 点击next_page_btn.click()#等待几秒 使得网站数据能够加载出来time.sleep(2)#将当前页源码数据放入总列表all_page_text_list.append(bro.page_source)for page_text in all_page_text_list:#解析数据tree etree.HTML(page_text)li_list tree.xpath(//*[idgzlist]/li)for li in li_list:# 这里得到 ./ .代表在上面的路径的基础上title li.xpath(./dl/title)[0]print(title) time.sleep(2) bro.quit()Cookie 使用Selenium还可以方便地对Cookies进行操作例如常见的获取Cookies示例如下 get_cookies()返回值是由字典组成的列表叫做jsonCookies。需要将jsonCookies解析成浏览器携带的cookie形式这个返回的是相应请求相应回来的cookie path rD:\Downloads\xx\chromedriver-win64\chromedriver.exe browser webdriver.Chrome(executable_pathpath) browser.get(https://www.zhihu.com/explore) # 获取cookie jsonhuke cookies browser.get_cookies()# 返回的是一个列表 print(cookies,type(cookies)) # 解析cookie dic {} for cookie in cookies:key cookie[name]value cookie[value]dic[key] valueprint(key,value) print(dic) # 在爬虫中可以使用的cookie browser.close()
http://www.pierceye.com/news/321447/

相关文章:

  • 建设网站的app英文成品网站模板下载
  • 破解版软件下载网站网站图片处理方案
  • 安徽网站建设方案服务汉中建设工程招标网
  • 网站建设公司企业模板下载阿里巴巴官网国际站
  • icp备案网站信息修改百度小说排行榜总榜
  • 崇明专业网站建设做网站后台要学什么
  • 专门做搜索种子的网站有哪些吉林平台网站建设多少钱
  • seo网站优化案例高端品牌裙子
  • 合肥需要做网站的公司无锡工程建设信息网站
  • 网站服务器有哪几种做招聘网站没有数据
  • 合肥手机网站制作建设自己做视频的网站
  • 公司网站备案名称广东建设项目备案公示网站
  • 网站建设设计维片长治网站建设公司
  • 商务网站建设兴田德润电话多少世界著名网站开发语言
  • 湖北网站建设公司微信手机网站设计
  • 徐州网站制作需要多少钱网站规划设计方案
  • 设计师常用网站门户重庆注册公司流程和费用标准
  • 网站图片太多怎么优化全民推广
  • 湖南做网站 e磐石网络做网站网站盈利会怎么样
  • 网站关闭流程保定风泉网络科技有限公司
  • 学做网站视频工作室网站需要备案吗
  • 个人网站 后台管理咸阳网站建设xymokj
  • 安阳淘宝网站建设保障性租赁住房管理平台
  • 建设银行网站最近都打不开吗在线设计网名生成器
  • 淮滨网站建设公司建设银行有招投标网站吗
  • 岳阳做公司网站可以做司法考试题的网站
  • 深圳做网站联雅asp.net网站很快吗
  • 网站制作公司交接网站网站建设 上海浦东
  • 甘肃省住房和建设厅网站移动网站登录入口
  • 垦利区建设局网站如何零基础学编程