当前位置: 首页 > news >正文

摄影网站cms东莞网站建设市场

摄影网站cms,东莞网站建设市场,江苏建设工程网,建筑模板尺寸及价格Day2 - 1.requests第一血_哔哩哔哩_bilibili requests作用#xff1a;模拟浏览器发请求 requests流程#xff1a;指定url - 发起请求 - 获取响应数据 - 持续化存储 爬取搜狗首页的页面数据 import requests# 指定url url https://sogou.com # 发起请求 resp…Day2 - 1.requests第一血_哔哩哔哩_bilibili requests作用模拟浏览器发请求 requests流程指定url - 发起请求 - 获取响应数据 - 持续化存储 爬取搜狗首页的页面数据 import requests# 指定url url https://sogou.com # 发起请求 response requests.get(url) # 获取响应数据,text返回字符串形式的响应数据 page_txt response.text # 持久化存储 with open(./sogpu.html, w, encodingutf-8) as fp:fp.write(page_txt) 简易网页采集器 输入关键词后爬取搜索结果的页面信息 https://www.sogou.com/web?query%E8%B5%B5%E6%B5%A9%E7%84%B6_asfwww.sogou.com_astw01019900p40040100ieutf8fromindex-nologins_fromindexsut2106sst01705812059807lkt0%2C0%2C0sugsuv1705811188521571sugtime1705812059807 把url中多余的参数去掉 https://www.sogou.com/web?query%E8%B5%B5%E6%B5%A9%E7%84%B6 这里的中文变成了乱码无需处理当然想手动换成中文也行 为了使关键词可变需要处理url携带的参数封装到字典中 再把url中的参数删干净https://www.sogou.com/web import requestsurl https://www.sogou.com/web keyword input() param {query: keyword } response requests.get(url, paramsparam) page_txt response.text filename keyword.html with open(filename, w, encodingutf-8) as fp:fp.write(page_txt) UA伪装 此次案例中需要介绍一种反扒机制——UA检测 UAUser-Agent请求载体的身份标识 UA检测门户网站的服务器会检测对应请求的载体身份标识如果检测到载体身份标识为某一款浏览器则认为是正常的请求否则认为是不正常的请求 UA伪装将对应的User-Agent封装到headers字典中 f12或者检查页面找到网络部分先清楚网络日志再刷新页面找到需要的请求对应的UA 然后把这个headers字典放入get请求中 import requestsheaders {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0 } url https://www.sogou.com/web keyword input() param {query: keyword } response requests.get(url, paramsparam, headersheaders) page_txt response.text filename keyword.html with open(filename, w, encodingutf-8) as fp:fp.write(page_txt) 破解百度翻译 爬取百度翻译中对应单词翻译的结果 由于我们不是想要爬取整个页面而是爬取页面中的部分信息经常需要用到数据解析 但不使用数据解析也能获取局部信息这次我们就不使用 从上面两张图我们可以看出输入单词后页面做了一个局部的刷新我们知道局部的刷新是可以通过Ajax实现的也就意味着我们在文本框中输入字符后会自动进行Ajax的请求发送Ajax请求成功后会对页面进行局部刷新 经过分析我们是不是应该利用抓包工具捕获一下对应的Ajax请求 点击XHRXHR中对应的是Ajax请求的数据包 输入dog 在xhr类型中一个个找 查看post请求携带的参数是d不清楚是什么东西所以接着往下看 三个sug包对应的是每输入一个字符后的Ajax请求我们需要的是dog的翻译结果所以要抓最后一个sug包 这样我们就拿到了请求的urlContent-Type这里是指我们输入一个字符后服务器端响应回来的是一组json串 分析总结 1post请求(携带了参数) 2响应数据是一组json数据 import requests import jsonpost_url https://fanyi.baidu.com/sug headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36 HBPC/12.1.3.303 } word input() data {kw: word } response requests.post(urlpost_url, datadata, headersheaders) # 响应数据是json数据如果继续使用.text获取的是一组字符串形式的json而.json返回的是一个objjson是什么对象就是什么对象在这里是字典 dict_obj response.json() # 由于是字典对象所以不能直接write filename ./ word .json fp open(filename, w, encodingutf-8) json.dump(dict_obj, fp, ensure_asciiFalse) # 字典中有中文不用ascii编码 豆瓣电影排名 爬取豆瓣电影某一分区的电影排名以喜剧片为例 第一种方法利用数据解析如果对当前url进行整个页面信息的爬取则能拿到页面信息再利用数据解析就可以获取电影名、主演名、上映时间等等信息 第二种方法思考它会不会像百度翻译一样使用Ajax请求进行局部刷新呢我们用滚轮滑到底部 发现新的电源被加载出来了滚轮回到中间但是我们的url并没有改变所以确实是一个Ajax请求 加载新电影时果然捕获了一个Ajax请求GET请求且携带了5个参数服务器端返回json串 5个参数中我们大概可以猜测出来start和limit含义 start从豆瓣数据库中第几部电源开始取出来 limit取多少部 在响应中看到json串是列表对象 import requests import jsonurl https://movie.douban.com/j/chart/top_list headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0 } param {type: 24,interval_id: 100:90,action: ,start: 0, # 从豆瓣数据库中第几部电源开始取出来limit: 20 # 一次取多少部 } response requests.get(url, paramsparam, headersheaders)list_obj response.json()fp open(douban_movie.json, w, encodingutf-8) json.dump(list_obj, fp, ensure_asciiFalse) 肯德基餐厅查询 肯德基官方网站 - Welcome to KFC.com.cn 爬取肯德基餐厅位置 输入关键字后发现url并没有改变说明是Ajax请求 import requests from bs4 import BeautifulSoupurl https://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?opkeyword headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0 } word input() data {cname: ,pid: ,keyword: word,pageIndex: 1,pageSize: 10 } response requests.post(url, datadata, headersheaders) text response.textwith open(kfc_ word .html, w, encodingutf-8) as fp:fp.write(text) 国家药监局化妆品生产许可证 由于找不到网站在哪所以无法敲代码实战以下是需求分析
http://www.pierceye.com/news/409088/

相关文章:

  • 营销型网站建设流程电脑怎么建网站
  • 郑州市汉狮做网站360免费建站
  • 安阳哪里有学做网站的学校做个公众号需要多少钱
  • 建站seo是什么成都做营销型网站
  • 网站建设哪个wordpress分类title
  • 建手机网站多少钱挂机软件定制
  • 网站建设 提案 框架河南一般建一个网站需要多少钱
  • 福建省建设人才市场网站深圳营销型网站建设优化
  • 晋城购物网站开发设计宣传网站有哪些
  • 在哪人网站要以接it项目做企业为什么要分析环境
  • 达令的网站建设wordpress上传视频
  • 织梦免费网站模块下载地址南充楼盘网
  • 深圳极速网站建设服务器做网站 然后百度推广
  • 西充县住房和城乡建设局网站深圳建设局网站打不开
  • 深圳常平网站建设制作公司网站开发qq群
  • 校园网站建设的感受论文专业微信网站建设公司首选
  • 国外免费logo设计网站免费网课平台
  • 高端网站设计定制公司页面跳转自动更新
  • 项目建设资金来源网站网站开发技术可以做什么工作
  • 可做易企秀的网站网页建站网站
  • 南京网站建设价格大型网站开发协调
  • 园林景观设计公司点评的网站和论坛大型网站搜索怎么做的
  • 河南省建设教育培训中心网站广告机器设备的价格表
  • 郑州做网站哪家最好中国能源建设集团有限公司是什么级别
  • 品牌设计公司排行榜前十名seo外包服务公司
  • 潍坊网站建设 58wordpress 酒店预订
  • 个人网站主机选择电商公司官网
  • 名城苏州网站龙岗网站建设价位
  • 免费手机网站制作学做网站游戏教程
  • 什么企业做网站广州市公司网站建设