当前位置: 首页 > news >正文

宁夏做网站便利的广州微网站建设

宁夏做网站,便利的广州微网站建设,php 信息分类网站开发,wordpress写的网站由于今日头条网页是动态渲染#xff0c;再加上各种token再验证#xff0c;因此直接通过API接口获取数据难度很大#xff0c;本文使用selenium来实现新闻内容爬取。 selenium核心代码 知识点#xff1a; 代码中加了很多的异常处理#xff0c;保证错误后重试#xff0c;…由于今日头条网页是动态渲染再加上各种token再验证因此直接通过API接口获取数据难度很大本文使用selenium来实现新闻内容爬取。 selenium核心代码 知识点 代码中加了很多的异常处理保证错误后重试提高稳定性EdgeChromiumDriverManager().install()自动下载浏览器驱动避免浏览器更新后驱动版本不对的问题使用driver.refresh()、driver.close()、driver.quit()防止占用内存过多使用--disable-extensions禁用插件避免插件可能带来的影响使用--inprivate打开无痕模式这里遇到一个很烦的问题用户登录同步问题无痕模式可以避免 from webdriver_manager.microsoft import EdgeChromiumDriverManagerdef get_html_by_selenium(url):print(开始, url)options webdriver.EdgeOptions()# 启用禁用浏览器正在被自动化程序控制的提示启动参数options.add_experimental_option(excludeSwitches, [enable-automation])# 禁用插件options.add_argument(--disable-extensions)# 无痕模式options.add_argument(--inprivate)count 0driver Nonewhile count 10:try:driver webdriver.Edge(serviceService(executable_pathEdgeChromiumDriverManager().install()),optionsoptions)# 最小化driver.minimize_window()time.sleep(1)driver.get(url)breakexcept WebDriverException as e:print(e)count 1time.sleep(3)continueexcept ConnectionError as e:print(e)count 1time.sleep(3)continueif driver is None:returntime.sleep(10)try:html driver.page_source# 防止内存泄露driver.refresh()try:driver.close()except WebDriverException:passdriver.quit()return htmlexcept NoSuchWindowException:return新闻列表解析代码 URL示例 https://www.toutiao.com/c/user/token/MS4wLjABAAAA6Ftyf-tftfbjp1u_TEz6kpY77ZlPaYRV0UsfXkF2UsM/?tabarticle 这里比较简单拿到了新闻标题和urlHTML解析过程中可能遇到浏览器中渲染的html结构和真实请求到的html结构不一样要以真实拿到的html内容为准 url fhttps://www.toutiao.com/c/user/token/{USER_TOKEN}/?tabarticle html get_html_by_selenium(url) soup BeautifulSoup(html, html.parser)for article in soup.find_all(div, attrs{class: profile-article-card-wrapper}):a article.find(a)news_title a[title]url a[href]content, news_time parse_and_save_news(url)新闻内容解析代码 相对比较简单忽略了图片的解析最终获得新闻的内容和新闻时间 def parse_and_save_news(url):html get_html_by_selenium(url)if not html:returnsoup BeautifulSoup(html, html.parser)article_content soup.find(div, attrs{class: article-content})if article_content is None:returnarticle_meta soup.find(div, attrs{class: article-meta})time_string article_meta.find(span, attrsNone).textnews_time datetime.strptime(time_string, %Y-%m-%d %H:%M)article article_content.articlenew_soup BeautifulSoup(htmlbody/body/html, html.parser)body new_soup.bodyfor p in article.find_all(p):body.append(BeautifulSoup(fp{p.text}/p, html.parser))content new_soup.prettify()return content, news_time
http://www.pierceye.com/news/222149/

相关文章:

  • 网站建设丶金手指专业网站幻灯片 字段
  • 网站开发技术总结干完房产中介整个人废了
  • iis建站安装wordpress对网站建设的评价语
  • 网站开发网站建设公司二手房网
  • 72建站网如何建设一个药材网站做网站的费用 可以抵扣吗
  • 四川通信建设工程有限公司网站做企业网站需要服务器么
  • 福田建网站费用烟台招远网站建设
  • 上海网站开发建设电话丹东市做网站
  • 外贸网站 免费模板 使用 zencart做新闻类网站
  • 呼和浩特网站推广大德通网站建设
  • 携程旅行网站建设上海城市建设大学网站
  • 360网站收录做网站设计用什么软件
  • 微信html5模板网站最新网站建设软件有哪些
  • 芝麻开门网站建设无极电影网怎样下载电影
  • 网站开发 书籍首页关键词优化价格
  • 网站建设建站流程方案百度一下你就知道下载安装
  • 大型网站快速排名学生做的网站能攻击
  • 怎样做加入购物车的网站wordpress SQL 配置
  • 网站设计原型品牌建设人才队伍建设
  • 常熟网站网站建设电商购物平台软件开发
  • 网站页尾信息网站建设费用摊销年限
  • 制作个人网站要多少钱重庆工程信息官网
  • 那里建设网站好珠海网站建设公司哪个好
  • 从化市营销型网站建设工业和信息化部五系网站建设
  • 网站建设的开发方法有哪些wordpress 企业站主题
  • 长治网站建设案例找人做一个小网站需要多少钱
  • html5 网站布局应用教程韩雪冬 网站
  • 行业网站维护印刷公司网站模板
  • 做自媒体需要用的网站wordpress更换语言包
  • 电子书推送网站怎么做重庆产品网站推广