当前位置: 首页 > news >正文

建设网站的流程图建筑人才招聘信息网

建设网站的流程图,建筑人才招聘信息网,制作详情页用什么软件,工商服务平台文章目录 获取文章链接批量爬取政策文件应用selenium爬取文件信息数据处理导出为excel 获取文章链接 获取中央人民政府网站链接#xff0c;进入国务院政策文件库#xff0c;分为国务院文件和部门文件#xff08;发改委、工信部、交通运输部、市场监督局、商务部等#xff… 文章目录 获取文章链接批量爬取政策文件应用selenium爬取文件信息数据处理导出为excel 获取文章链接 获取中央人民政府网站链接进入国务院政策文件库分为国务院文件和部门文件发改委、工信部、交通运输部、市场监督局、商务部等 搜索关键词——汽车即可得到按照 相关度 或者 时间 排列的政策文件。 批量爬取政策文件 批量获取文件链接并存入列表 应用selenium爬取文件信息 利用xpath定位链接、索引号、标题、发文机关、发文字号、主题分类、成文日期、发布日期、文件内容等信息。 右侧通过光标定位各部分信息右键点击 copy 并选择 copy xpath即可复制xpath路径。 完整代码 from selenium import webdriver from urllib.error import HTTPError from selenium.webdriver.common.by import By #selenium新版本写法 import warnings warnings.filterwarnings(ignore) 爬虫国务院文件 传入链接返还链接内的全部内容生成字典def get_info(id,url):options webdriver.ChromeOptions()options.add_argument(--headless)options.add_argument(--no-sandbox)options.add_argument(--disable-dev-shm-usage)driver webdriver.Chrome(optionsoptions)link {}driver.get(url)try:link[文章ID] id # 序列ID从0—现有的文件数link[链接] url # 原文链接#time.sleep(3)link[索引号] driver.find_element(By.XPATH,/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[1]/td[2]).text # 索引号link[标题] driver.find_element(By.XPATH,/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[3]/td[2]).text # 标题link[发文机关] driver.find_element(By.XPATH,/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[2]/td[2]).text # 发文机关link[发文字号] driver.find_element(By.XPATH,/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[4]/td[2]).text # 发文字号link[主题分类] driver.find_element(By.XPATH,/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[1]/td[4]).text # 主题分类link[成文日期] driver.find_element(By.XPATH,/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[2]/td[4]).text # 成文日期link[发布日期] driver.find_element(By.XPATH,/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[4]/td[4]) # 发布日期link[文件内容] driver.find_element(By.XPATH,//*[idUCAP-CONTENT]).text # 内容with open(汽车/国务院文件/link[标题].txt,w,encodingutf-8) as file:file.write(link[文件内容])except HTTPError:return Nonedriver.quit()return link数据处理 每次爬取单一文件信息并整理为dataframe之后按行合并。 import pandas as pddf pd.DataFrame() with open(link1.txt,r,encodingutf-8) as f:links f.readlines()for id,url in enumerate(links):url url.strip(\n)print(url)result get_info(id,url)df1 pd.DataFrame.from_dict(result,index).Tdf pd.concat([df,df1],axis0)df导出为excel df.to_excel(汽车行业政策文本研究.xlsx,indexFalse)
http://www.pierceye.com/news/986741/

相关文章:

  • 怎么可以预览自己做的网站天津市城乡建设网站
  • 本地网站开发宁夏建设工程招标投标信息网站
  • 网站建设服务费怎么记账维护一个网站一年多少钱
  • 电子商务网站建设定位设想我的网站为什么打不开
  • 旅游网站开发方案ppt移动商城积分和积分区别
  • 如何做网站推广自己的产品WordPress+百度+主动
  • 商丘网站建设推广公司赣州seo唐三
  • 产品网站设计计算机专业做网站运营
  • 做平台网站怎么做的wordpress获取当前分类下的子分类
  • 广州网站建设性价比长安高端装备网站设计公司
  • 电子商务网站推广计划沈阳建设工程造价
  • 网站备案接入商是什么网站语言版本
  • 个人做网站做什么样的话网站站点连接不安全
  • 响应式网站 外贸平顶山 网站设计
  • 手袋 东莞网站建设成都哪里好玩适合情侣
  • 苏州哪个公司做门户网站给学校建网站那个系统好
  • 现在网站都是拿什么软件做的wordpress 自动alt
  • 山东省住房和城乡建设部网站首页网站中的自助报价系统
  • 如何 网站收录软件开发大概需要多少钱
  • 网站建设微信端简洁型网页
  • 一般的网站开发语言用什么《网站开发实践》 实训报告
  • php企业网站开发实验总结服务器
  • 织梦网站文章内容模板荣耀商城
  • seo 网站太小平面设计师招聘广告文案
  • 凡科网站建设桂林网站开发m0773
  • 做跨境都有哪些网站做电影类网站
  • 琼海商城网站建设东莞网站建设价位
  • 装饰网站建设重要性云服务器 多个网站
  • 邯郸市城乡建设管理局网站小米商城wordpress
  • 河北中石化建设网站html用户登录注册页面代码