无锡做网站企业,seo外链工具,企业seo价格查询价格,php p2p网站建设python爬虫代码示例的方法#xff1a;首先获取浏览器信息#xff0c;并使用urlencode生成post数据#xff1b;然后安装pymysql#xff0c;并存储数据到MySQL即可。python爬虫代码示例的方法#xff1a;1、urllib和BeautifuSoup获取浏览器信息from urllib import requestre…python爬虫代码示例的方法首先获取浏览器信息并使用urlencode生成post数据然后安装pymysql并存储数据到MySQL即可。python爬虫代码示例的方法1、urllib和BeautifuSoup获取浏览器信息from urllib import requestreq request.urlopen(http://www.baidu.com)print(req.read().decode(utf-8))模拟真实浏览器携带user-Agent头(目的是不让服务器认为是爬虫若不带此浏览器信息则可能会报错)req request.Request(url) #此处url为某个网址req.add_header(key,value) #key即user-Agentvalue即浏览器的版本信息resp request.urlopen(req)print(resp.read().decode(utf-8))相关学习推荐python视频教程使用POST导入urllib库下面的parsefrom urllib import parse使用urlencode生成post数据postData parse.urlencode([(key1,val1),(key2,val2),(keyn,valn)])使用postrequest.urlopen(req,datapostData.encode(utf-8)) #使用postData发送post请求resp.status #得到请求状态resp.reason #得到服务器的类型完整代码示例(以爬取维基百科首页链接为例)#-*- coding:utf-8 -*-from bs4 import BeautifulSoup as bsfrom urllib.request import urlopenimport reimport ssl#获取维基百科词条信息ssl._create_default_https_context ssl._create_unverified_context #全局取消证书验证#请求URL并把结果用utf-8编码req urlopen(https://en.wikipedia.org/wiki/Main page).read().decode(utf-8)#使用beautifulsoup去解析soup bs(req,html.parser)# print(soup)#获取所有href属性以“/wiki/Special”开头的a标签urllist soup.findAll(a,hrefre.compile(^/wiki/Special))for url in urllist:#去除以.jpg或.JPG结尾的链接if not re.search(\.(jpg|JPG)$,url[href]):#get_test()输出标签下的所有内容包括子标签的内容#string只输出一个内容若该标签有子标签则输出“noneprint(url.get_text()-----url[href])# print(url)2、存储数据到MySQL安装pymysql通过pip安装$ pip install pymysql或者通过安装文件$ python setup.py install使用#引入开发包import pymysql.cursors#获取数据库链接connection pymysql.connect(hostlocalhost,user root,password 123456,db wikiurl,charset utf8mb4)try:#获取会话指针with connection.cursor() as cursor#创建sql语句sql insert into tableName(urlname,urlhref) values(%s,%s)#执行SQL语句cursor.execute(sql,(url.get_text(),https://en.wikipedia.orgurl[href]))#提交connection.commit()finally:#关闭connection.close()3、爬虫注意事项Robots协议(机器人协议也称爬虫协议)全称是“网络爬虫排除协议”网站通过Robots协议告诉搜索引擎哪些页面可以抓取哪些页面不可以抓取。一般在主页面下如https://en.wikipedia.org/robots.txtDisallow不允许访问allow允许访问相关推荐编程视频课程