当前位置: 首页 > news >正文

网站做行业认证好处大学生职业生涯规划ppt

网站做行业认证好处,大学生职业生涯规划ppt,crm资源管理系统,广元市建设局网站引言 本文介绍了使用Python编写的爬虫程序#xff0c;通过爬取太平洋网络上的相机文章#xff0c;获取相关信息并展示结果。文章详细介绍了爬虫程序的实现过程#xff0c;包括使用Selenium模拟浏览器操作、使用BeautifulSoup解析网页内容等。通过阅读本文#xff0c;可以了…引言 本文介绍了使用Python编写的爬虫程序通过爬取太平洋网络上的相机文章获取相关信息并展示结果。文章详细介绍了爬虫程序的实现过程包括使用Selenium模拟浏览器操作、使用BeautifulSoup解析网页内容等。通过阅读本文可以了解到如何利用爬虫技术获取网络上的有用信息 在互联网时代获取网络上的信息变得越来越重要。而爬虫技术作为一种有效的信息获取方式被广泛应用于各个领域。本文将介绍一种使用Python编写的爬虫程序通过爬取太平洋网络上的相机文章获取相关信息并展示结果。 准备工作 本程序使用Python编程语言并依赖于一些第三方库包括 bagseleniumtqdmrequestsbeautifulsoup4 完整代码 #!/usr/bin/env python3 # coding:utf-8 import bag from selenium.webdriver.common.by import By from tqdm import tqdm import requests from bs4 import BeautifulSoup import re import urllib3urllib3.disable_warnings() all_data_url [] end []def main():base_url rhttps://dc.pconline.com.cn/hangqing/web bag.Bag.web_no_pic()urls get_page_url(base_url)print(urls)for url in tqdm(urls):get_data_url(web, url)for link in tqdm(all_data_url[:2]):data get_data(link)print(data)def get_page_url(url):urls []for i in range(2): # 获取页数if i 1:urls.append(url)else:urls.append(url index_{}.html.format(i 1))return urlsdef get_data_url(web, url):web.get(url)web.implicitly_wait(1)links web.find_elements(By.XPATH, r//*[idJlis]/li/a)for link in links:all_data_url.append(link.get_attribute(href))def get_data(url):result []headers {user-agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.124 Safari/537.36}resp requests.get(url, headersheaders)resp.encoding gb2312resp.close()html BeautifulSoup(resp.text, lxml)info []title re.compile(rh1(.*?)/h1, re.S)soup html.find_all(div, class_art-hd)for i in re.findall(title, str(soup)):info.append(i)info1 []content re.compile(rp(.*?)/p, re.S)soup1 html.find_all(div, class_content)for i in re.findall(content, str(soup1)):info1.append(re.sub(r.*?, , i))info2 []brand re.compile(rspan classmark.*?a.*?(.*?)/a.*?/span, re.S)soup2 html.find_all(div, class_nav nav-a)for i in re.findall(brand, str(soup2)):info2.append(i)result.extend([info2,info,info1,url])return resultif __name__ __main__:main()解析 首先我们定义了一个main函数作为程序的入口。在main函数中我们首先定义了要爬取的网页的基础URL然后创建一个浏览器对象web并调用get_page_url函数获取要爬取的页面URL列表。接着我们遍历页面URL列表调用get_data_url函数获取每个页面中的文章链接并将其存储在all_data_url列表中。最后我们遍历all_data_url列表调用get_data函数获取每篇文章的相关信息 接下来我们来看一下具体的实现细节。在get_page_url函数中我们通过循环获取太平洋网络相机文章的多个页面的URL并将其存储在urls列表中。在get_data_url函数中我们使用Selenium模拟浏览器操作获取每个页面中的文章链接并将其存储在all_data_url列表中。在get_data函数中我们使用requests库发送HTTP请求获取每篇文章的网页内容并使用BeautifulSoup解析HTML提取出文章的标题、内容和品牌信息并将结果存储在result列表中。 最后我们调用main函数执行爬虫程序。程序将按照以下步骤进行操作首先获取太平洋网络相机文章的页面URL列表然后遍历页面URL列表获取每个页面中的文章链接接着遍历文章链接列表获取每篇文章的相关信息最后打印结果 结语 如果你觉得本教程对你有所帮助不妨点赞并关注我的CSDN账号。我会持续为大家带来更多有趣且实用的教程和资源。谢谢大家的支持
http://www.pierceye.com/news/14447/

相关文章:

  • 如何看一个网站开发语言网站更改logo
  • asp.net做学校网站首页苏州网站设计kgwl
  • 做进行网站推广赚钱好的网站布局
  • 茂名免费网站建设小程序开发语言
  • 南京制作网站优化营销网站建设要注意什么
  • 眉山市建设局网站python基础教程书籍
  • 出口退税备案在哪个网站做机加工外协加工网
  • 上海网页公司网站建设优化推广排名
  • 重庆农村网站建设佛山网页网站设计
  • 主机屋建网站源码网站备案帐户有什么用
  • 成都网站建设常凡云如何解析到凡科建设的网站
  • 书店网站html模板天元建设集团有限公司 安百平
  • 网站维护主要有哪些内容和方法优化英语
  • 心雨在线高端网站建设专业莱芜网络推广公司电话
  • 网站建设基本流程备案做视频播放网站 赚钱
  • ipad可以做网站吗高级软件开发培训班
  • 帝国网站管理系统 数据库济南高端网站设计
  • 做同步网站北京做网站优化
  • 农业网站建设模板下载马鞍山建设工程监督站网站
  • 做网站骗老外的钱什么是企业文化它包括哪些内容
  • 容桂顺德网站建设wordpress英文文章格式
  • 大型门户网站都有网站建设 交易保障
  • 淘宝网站页面设计网站首页广告图片伸缩代码又关闭
  • 淄博网站建设 招聘做电商能赚钱吗
  • 建设单位网站需求报告临武县网站建设专业
  • wordpress 知名站点网店怎么开 货源怎么找
  • 德州建设信息网站优化网站性能监测
  • 网站建设元国外空间网站源码
  • 企业营销网站建设公司专做短篇的网站
  • 网站建设合作合同标志设计英文