网站开发的趋势,阿里云 wordpress 慢,做啊免费网站,网站建设外包平台背景#xff1a;
昨天我们讲了讲关于seleium的一些基础操作#xff0c;今天讲讲如何将seleium和爬虫结合起来#xff0c;可以使用selenium获取网页的动态加载数据#xff0c;可以使用selenium获得cookie#xff0c;这两个是比较常用的。我将一一展开。
实战案例…背景
昨天我们讲了讲关于seleium的一些基础操作今天讲讲如何将seleium和爬虫结合起来可以使用selenium获取网页的动态加载数据可以使用selenium获得cookie这两个是比较常用的。我将一一展开。
实战案例
获取XHR动态加载数据
思考在爬虫中为什么需要使用seleniumselenium和爬虫之间的关联是什么
便捷的爬取动态加载数据可见即可得
我发现大家对动态加载数据和请求包中的数据没有一个特别清晰的认识。
selenium获得网页数据是经过多个数据包发送请求共同渲染后的数据上图片 记住这个元素页面是有多个网络请求共同整合出来的数据即下面网络请求数据包加载渲染后的 要求https://movie.douban.com/typerank?type_name%E5%96%9C%E5%89%A7type24interval_id100:90action 解析其相关数据电影名等等。
from selenium import webdriver
from time import sleep
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
path rD:\Downloads\xx\chromedriver-win64\chromedriver.exe
urlhttps://movie.douban.com/typerank?type_name%E5%96%9C%E5%89%A7type24interval_id100:90action
driver webdriver.Chrome(executable_pathpath)driver.get(url)
sleep(5)
print(driver.page_source)如上图我们获取的一定是渲染加载完成后的数据接下来对网页源码数据进行解析即可。如果想获取全部大家就注入js脚本使用selenium让其不断向下滑动即可。
获取分页数据
这个案例是之前写的可能代码以已经失效了但是爬虫学习学的一定是思路不是代码在当前这个大时代会用chatgpt的程序员才不会被淘汰。
要求获取前5页的企业名称
实现思路将每一页源码数据存到一个列表中最后对列表中的每一项进行数据解析即可获得首页源码数据后使用selenium对下一页进行点击然后不断循环。
#获取前5页的企业名称
from selenium import webdriver
import time
from lxml import etreebro webdriver.Chrome(executable_path./chromedriver)
url http://scxk.nmpa.gov.cn:81/xk/
bro.get(urlurl)
time.sleep(2)
#获取页面源码数据(page_source)
page_text bro.page_source
#将前5页的页面源码数据存储到该列表中
all_page_text_list [page_text]
for i in range(4):#找到下一页标签next_page_btn bro.find_element_by_xpath(//*[idpageIto_next])# 点击next_page_btn.click()#等待几秒 使得网站数据能够加载出来time.sleep(2)#将当前页源码数据放入总列表all_page_text_list.append(bro.page_source)for page_text in all_page_text_list:#解析数据tree etree.HTML(page_text)li_list tree.xpath(//*[idgzlist]/li)for li in li_list:# 这里得到 ./ .代表在上面的路径的基础上title li.xpath(./dl/title)[0]print(title)
time.sleep(2)
bro.quit()Cookie
使用Selenium还可以方便地对Cookies进行操作例如常见的获取Cookies示例如下
get_cookies()返回值是由字典组成的列表叫做jsonCookies。需要将jsonCookies解析成浏览器携带的cookie形式这个返回的是相应请求相应回来的cookie
path rD:\Downloads\xx\chromedriver-win64\chromedriver.exe
browser webdriver.Chrome(executable_pathpath)
browser.get(https://www.zhihu.com/explore)
# 获取cookie jsonhuke
cookies browser.get_cookies()# 返回的是一个列表
print(cookies,type(cookies))
# 解析cookie
dic {}
for cookie in cookies:key cookie[name]value cookie[value]dic[key] valueprint(key,value)
print(dic) # 在爬虫中可以使用的cookie
browser.close()