当前位置: 首页 > news >正文

西安做网站设计公司东莞网站定制开发

西安做网站设计公司,东莞网站定制开发,asp做留言板网站,dede门户网站模板下载目录 前因 首先的尝试 解决办法 导入包 定义一个json配置文件 打开浏览器执行操作 注意 提取源代码并且进行筛选链接 执行结果 前因 由于自己要把csdn的博客同步到hugo中#xff0c;把博客转为md格式已经搞好了#xff0c;但是由于csdn的图片具有防盗链#xff0c;…目录 前因 首先的尝试 解决办法 导入包 定义一个json配置文件 打开浏览器执行操作 注意 提取源代码并且进行筛选链接 执行结果 前因 由于自己要把csdn的博客同步到hugo中把博客转为md格式已经搞好了但是由于csdn的图片具有防盗链所以打算把所有的图片爬取下来然后保存在本地 刚好本人略懂一些python所以自己先写了一个脚本用来爬取各个博客的链接如果不想听我多bb的直接去我的github看源码 GitHub - mumuhaha487/Get_csdnContribute to mumuhaha487/Get_csdn development by creating an account on GitHub.https://github.com/mumuhaha487/Get_csdn 首先的尝试 首先的尝试就是利用简单好用的request包进行爬取。 但是由于csdn的博客是不显示全部滑动底部时更新一部分 request包可能做不了这么复杂的工作QAQ 好像https://blog.csdn.net/你的名字/article/list/链接可以用request包进行爬取 解决办法 那么恰好我有学过一点点的selenium包所以搞了一个自动化的形式通过模拟鼠标滑动到文章的底部来获取到所有的文章链接 导入包 各个包都有解释用途 from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.action_chains import ActionChains #用于自动化框架执行动作 import time #延时操作方便网站加载完全 import json #用于读取配置信息 import re #从源代码中提取文章的链接 定义一个json配置文件 定义一个json配置文件方便管理 现在文件只有用户名称,后续可加配置 {blog_id: mumuemhaha } 读取用户名称并且将其拼接成csdn个人博客链接 with open(./config.json,r) as file_1:data_1json.load(file_1)blog_iddata_1[blog_id] url_1fhttps://blog.csdn.net/{blog_id}?typeblog 打开浏览器执行操作 注意 这里由于不知道要下滑多少次所以可以设定一个很大的数字然后每滑动十次判断源代码是否更新然后源代码没有变化则跳出循环即可 driver webdriver.Chrome() driver.get(url_1) for i in range(10000):time.sleep(0.5)actions ActionChains(driver)actions.send_keys(Keys.PAGE_DOWN) # 可以多次发送 PAGE_DOWN 来实现滚动的距离actions.perform()if i % 10 0: # 每滑动 10 次进行判断prev_page_source driver.page_source # 获取前一次滑动后的页面源码time.sleep(2) # 等待页面加载current_page_source driver.page_source # 获取当前页面源码if prev_page_source current_page_source:print(网站滑倒底了跳出循环...)break 提取源代码并且进行筛选链接 req_1driver.page_source re_1a data-v-6fe2b6a7 href(.*?) blog_urlsre.findall(re_1,req_1) 执行结果 我加了一个打印链接个数的代码来判断是否全部爬取下来了 print(f文章个数为{len(blog_urls)}看看是不是全爬下来了) 全部代码为 from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.action_chains import ActionChains #用于自动化框架执行动作 import time #延时操作方便网站加载完全 import json #用于读取配置信息 import re #从源代码中提取文章的链接 with open(./config.json,r) as file_1:data_1json.load(file_1)blog_iddata_1[blog_id] url_1fhttps://blog.csdn.net/{blog_id}?typeblog driver webdriver.Chrome() driver.get(url_1) for i in range(10000):time.sleep(0.5)actions ActionChains(driver)actions.send_keys(Keys.PAGE_DOWN) # 可以多次发送 PAGE_DOWN 来实现滚动的距离actions.perform()if i % 10 0: # 每滑动 10 次进行判断prev_page_source driver.page_source # 获取前一次滑动后的页面源码time.sleep(2) # 等待页面加载current_page_source driver.page_source # 获取当前页面源码if prev_page_source current_page_source:print(网站滑倒底了跳出循环...)breakreq_1driver.page_source re_1a data-v-6fe2b6a7 href(.*?) blog_urlsre.findall(re_1,req_1) print(f文章个数为{len(blog_urls)}看看是不是全爬下来了)
http://www.pierceye.com/news/394596/

相关文章:

  • 龙岗网站设计效果台州百度关键词排名
  • 政务类网站建设ps做全屏网站画布要多大
  • 百度广告搜索推广seo如何快速排名百度首页
  • 网站调用微信数据网站开发语言windows
  • 网站建设的公青岛专业网站制作设计
  • 东莞营销型网站学动漫设计有前途吗
  • 资讯网站wordpress实例配置
  • 营销网站建设哪里便宜最新房地产新闻
  • 有自己的网站怎么做淘宝客wordpress不自动安装
  • 我自己做网站wcf网站开发
  • 做一个好的网站需要什么店铺设计合同
  • 做网站公司郑州设计师能做网站前端吗
  • 建设工程交易中心网站中国监察报电子版
  • 网站正在建设中 倒计时软文写作范例大全
  • 左中右三栏布局网站建设网站建设微金手指下拉15
  • 做网站公司怎么找数字营销招聘
  • 做网站域名和空间费如何创建一个新网站
  • 前程无忧网广州网站建设类岗位wordpress建站教程视频
  • 徐州建设公司网站最吉祥的公司名字大全
  • wordpress网站前端优化怎么做网站导航地图
  • 成都市武侯区建设局门户网站自助快速建站
  • 专业视频网站开发公司兰州装修公司报价明细表
  • 企业网站管理系统的运维服务建设黑彩网站需要什么
  • 揭阳自助建站大数据就业方向及前景
  • 提供盐城网站开发dreamwearver可以做网站吗
  • 龙岩市建设局网站求大哥给个狼站2022
  • 优化算法 网站让移动网站
  • tomcat 怎么做网站网站免费推广平台
  • 山东定制型网站建设推广上传的网站打不开
  • 定制一个企业网站多少钱东莞网站竞价推广运营