当前位置: 首页 > news >正文

宁夏电力建设工程公司外部网站央企八大设计院

宁夏电力建设工程公司外部网站,央企八大设计院,网站建设 开票税率,软件培训机构排行榜注#xff1a;本系列专栏需要有简单的python3 语言基础 爬虫的相关作用在此就不再说明#xff0c;相信能够点进该系列文章的读者都已经了解了爬虫是什么#xff0c;并且能够做什么。由于是发布在互联网的文章#xff0c;所以系列文章都不以书籍的方式从头到尾的叙述作用及其…注本系列专栏需要有简单的python3 语言基础 爬虫的相关作用在此就不再说明相信能够点进该系列文章的读者都已经了解了爬虫是什么并且能够做什么。由于是发布在互联网的文章所以系列文章都不以书籍的方式从头到尾的叙述作用及其一些简介。文章将快速的进入爬虫的开发讲解。 开始 爬虫一般的实现流程如下 首先向一个 Url 地址发送请求随后远端服务器将会返回整个网页。常规情况下当我们使用浏览器访问网站也是这么一个流程用户在浏览器输入一个地址浏览器将会发送一个服务器请求服务器返回请求的内容随后浏览器解析内容。 其次发送请求后将会得到整个网页的内容。 最后通过我们的需求去解析整个网页通过正则或其它方式获取需要的数据。 发送请求 获取网页 一般情况下发送请求和获取网页是相互实现的通过请求后就会得到网页数据。 我们使用requests 库进行web的请求。 代码编写如下 import requestsurlhttps://www.baidu.com/ headers {User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36} htmlrequests.get(url,headersheaders) print(html.text)import requests引入 requests 模块urlhttps://www.baidu.com/设置要请求的url值这里为百度headers为了更好的伪造自己是浏览器访问的需要加一个头让自己看起来是通过浏览器访问htmlrequests.get(url,headersheaders)requests使用get方法请求网站为url设置的值头部为headersprint(html.text)显示返回的值html中的text文本text文本则为网页的源代码 解析网页 接下来需要使用一个库 BeautifulSoup库BeautifulSoup 是灵活方便的网页解析库使用bs4BeautifulSoup 可以快速的使我们获取网页中的一般信息。例如我们需要获取刚刚得到网页源码中的title标题首先引入 bs库 from bs4 import BeautifulSoup随后使用 beautifulsoup 进行解析html.parser 代表html的解析器可以解析html代码其中 html.text 为网页源码为html如下 val BeautifulSoup(html.text, html.parser)解析完成后如果想获取标题值则直接使用 .title 进行获取 print(val.title)运行结果如下 完整代码如下 import requests from bs4 import BeautifulSoupurlhttps://www.baidu.com/ headers {User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36} htmlrequests.get(url,headersheaders) val BeautifulSoup(html.text, html.parser) print(val.title)如果想进行抓取文件的保存可以如下方式编写代码 f open(rD:\html.html,modew) f.write(html.text) f.close() 以上代码将网页的源代码保存至D盘根目录下完整代码如下 import requests from bs4 import BeautifulSoupurlhttps://www.baidu.com/ headers {User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36} htmlrequests.get(url,headersheaders) val BeautifulSoup(html.text, html.parser) print(val.title) f open(rD:\html.html,modew) f.write(html.text) f.close() 以上代码可能会出现编码不一致出现“乱码”的情况可以通过以下方式解决 f open(rD:\html.html,modew,encodingutf-8)在open函数中添加编码为 utf-8 即可。最终打开保存的文件如下 由于有些资源是动态加载获取的链接有时效性所以并没有显示。 这样最简单的一个爬虫就解决了下一篇将继续深入了解爬虫。
http://www.pierceye.com/news/99764/

相关文章:

  • 衡水精品网站建设游戏广告推广平台
  • 响应式企业网站建设营销战略
  • wordpress离线浏览搜索引擎优化包括
  • 门户网站建设需要多少呼伦贝尔市住房和城乡建设局网站
  • 静海集团网站建设住房城乡建设网站
  • 个人备案挂企业网站网站开发公司照片
  • 网站建设课程体会国内最新新闻简短
  • 网站开发大概价格最常用的网页制作软件
  • 商务网站模块设计时前台基础设施建设免费网站建设空间
  • 青海省公路工程建设总公司网站饮料公司网站模板
  • 建设部网站刘赵云网页版邮箱
  • 免费扑克网站企业网站怎么搜索优化
  • 做网站导航的厦门网站建设制作多少钱
  • 怎样免费注册网站域名鹤城建设集团网站
  • 3合1网站建设价格网站建设论坛快速建站
  • 怎样做钓鱼网站上海网站关键词排名优化报价
  • 昆明专业网站设计公司电商类网站设计模板
  • 网站流量用完了重庆网站推广
  • 网站管理助手数据库网站在建设中无法访问
  • 网站标题格式建设网站南昌
  • wordpress作企业网站好吗沈阳短视频制作公司
  • 表格网站怎么做的作文网站大全
  • 比特币网站建设专业网站建设企业网站制作
  • 故宫博物院官网网站咋做的山东省济宁市最新消息
  • 天河营销型网站建设html网页设计代码作业正能量
  • 国外网站设计欣赏智能获客系统
  • 济南网站建设599网站建设完工后在什么科目核算
  • 学校网站的作用app营销推广方式
  • 怎么做网站互换链接重庆工程建设信息网官网查询
  • 刚开始做网站要传数据库吗赛迪建设网站