当前位置: 首页 > news >正文

无锡做网站企业seo外链工具

无锡做网站企业,seo外链工具,企业seo价格查询价格,php p2p网站建设python爬虫代码示例的方法#xff1a;首先获取浏览器信息#xff0c;并使用urlencode生成post数据#xff1b;然后安装pymysql#xff0c;并存储数据到MySQL即可。python爬虫代码示例的方法#xff1a;1、urllib和BeautifuSoup获取浏览器信息from urllib import requestre…python爬虫代码示例的方法首先获取浏览器信息并使用urlencode生成post数据然后安装pymysql并存储数据到MySQL即可。python爬虫代码示例的方法1、urllib和BeautifuSoup获取浏览器信息from urllib import requestreq request.urlopen(http://www.baidu.com)print(req.read().decode(utf-8))模拟真实浏览器携带user-Agent头(目的是不让服务器认为是爬虫若不带此浏览器信息则可能会报错)req request.Request(url) #此处url为某个网址req.add_header(key,value) #key即user-Agentvalue即浏览器的版本信息resp request.urlopen(req)print(resp.read().decode(utf-8))相关学习推荐python视频教程使用POST导入urllib库下面的parsefrom urllib import parse使用urlencode生成post数据postData parse.urlencode([(key1,val1),(key2,val2),(keyn,valn)])使用postrequest.urlopen(req,datapostData.encode(utf-8)) #使用postData发送post请求resp.status #得到请求状态resp.reason #得到服务器的类型完整代码示例(以爬取维基百科首页链接为例)#-*- coding:utf-8 -*-from bs4 import BeautifulSoup as bsfrom urllib.request import urlopenimport reimport ssl#获取维基百科词条信息ssl._create_default_https_context ssl._create_unverified_context #全局取消证书验证#请求URL并把结果用utf-8编码req urlopen(https://en.wikipedia.org/wiki/Main page).read().decode(utf-8)#使用beautifulsoup去解析soup bs(req,html.parser)# print(soup)#获取所有href属性以“/wiki/Special”开头的a标签urllist soup.findAll(a,hrefre.compile(^/wiki/Special))for url in urllist:#去除以.jpg或.JPG结尾的链接if not re.search(\.(jpg|JPG)$,url[href]):#get_test()输出标签下的所有内容包括子标签的内容#string只输出一个内容若该标签有子标签则输出“noneprint(url.get_text()-----url[href])# print(url)2、存储数据到MySQL安装pymysql通过pip安装$ pip install pymysql或者通过安装文件$ python setup.py install使用#引入开发包import pymysql.cursors#获取数据库链接connection pymysql.connect(hostlocalhost,user root,password 123456,db wikiurl,charset utf8mb4)try:#获取会话指针with connection.cursor() as cursor#创建sql语句sql insert into tableName(urlname,urlhref) values(%s,%s)#执行SQL语句cursor.execute(sql,(url.get_text(),https://en.wikipedia.orgurl[href]))#提交connection.commit()finally:#关闭connection.close()3、爬虫注意事项Robots协议(机器人协议也称爬虫协议)全称是“网络爬虫排除协议”网站通过Robots协议告诉搜索引擎哪些页面可以抓取哪些页面不可以抓取。一般在主页面下如https://en.wikipedia.org/robots.txtDisallow不允许访问allow允许访问相关推荐编程视频课程
http://www.pierceye.com/news/264774/

相关文章:

  • vi设计公司网站python做网站好处
  • 北京专业网站建设服务商枣庄建设工程管理局网站
  • 百度移动网站提交深圳做网站的好公司
  • 十大在线编程网站旅游营销型网站
  • 微转app是用网站做的吗win10运行wordpress
  • 微网站建设哪里便宜网站做的跟别人的一样可以吗
  • 合肥优化网站福州网站设计
  • 企业网站制作前期需要什么资料网站 月15g流量够用吗
  • 网络营销网站建设ppt环艺做网站
  • 手机建设银行官方网站网站开发要点
  • 做简历的网站有随州网站建设学校
  • 深圳建设网站企业青白江做网站的公司
  • dm网站制作软件无忧网站建设
  • 如何在自己的网站上做歌单王建设医生网站
  • 科技+杭州+网站建设做效果图的网站有哪些
  • 引流推广网站平台wordpress页面发布失败
  • 南京哪家网站建设好网站开发需要注意的
  • 一个综合网站上线多少钱wordpress粘贴word
  • 承接电商网站建设新手做自己的网站
  • 网页版视频网站建设需要多少钱四川鸿业建设集团公司网站
  • h5网站实例wordpress改造mip
  • 完整的网络营销推广方案包括优化营商环境心得体会个人
  • 商洛市住房和城乡建设局网站建免费网站
  • 做网站要多少的服务器网站设计的步骤
  • 网站关键词怎么做上首页wordpress 架构原理
  • 厦门专业网站建设代理国外在线crm系统suitecrm
  • 哪个网站可以领手工活在家做wordpress heroku
  • 为什么没有网站做图文小说电子商务网站开发的课程介绍
  • 在哪个网站做问卷好单页面网站推广
  • 专业网站建设模块维护静海网站建设