当前位置：首页 > news >正文

摄影网站cms东莞网站建设市场

news 2025/12/20 20:12:18

摄影网站cms,东莞网站建设市场,江苏建设工程网,建筑模板尺寸及价格Day2 - 1.requests第一血_哔哩哔哩_bilibili requests作用#xff1a;模拟浏览器发请求 requests流程#xff1a;指定url - 发起请求 - 获取响应数据 - 持续化存储爬取搜狗首页的页面数据 import requests# 指定url url https://sogou.com # 发起请求 resp…Day2 - 1.requests第一血_哔哩哔哩_bilibili requests作用模拟浏览器发请求 requests流程指定url - 发起请求 - 获取响应数据 - 持续化存储爬取搜狗首页的页面数据 import requests# 指定url url https://sogou.com # 发起请求 response requests.get(url) # 获取响应数据,text返回字符串形式的响应数据 page_txt response.text # 持久化存储 with open(./sogpu.html, w, encodingutf-8) as fp:fp.write(page_txt) 简易网页采集器输入关键词后爬取搜索结果的页面信息 https://www.sogou.com/web?query%E8%B5%B5%E6%B5%A9%E7%84%B6_asfwww.sogou.com_astw01019900p40040100ieutf8fromindex-nologins_fromindexsut2106sst01705812059807lkt0%2C0%2C0sugsuv1705811188521571sugtime1705812059807 把url中多余的参数去掉 https://www.sogou.com/web?query%E8%B5%B5%E6%B5%A9%E7%84%B6 这里的中文变成了乱码无需处理当然想手动换成中文也行为了使关键词可变需要处理url携带的参数封装到字典中再把url中的参数删干净https://www.sogou.com/web import requestsurl https://www.sogou.com/web keyword input() param {query: keyword } response requests.get(url, paramsparam) page_txt response.text filename keyword.html with open(filename, w, encodingutf-8) as fp:fp.write(page_txt) UA伪装此次案例中需要介绍一种反扒机制——UA检测 UAUser-Agent请求载体的身份标识 UA检测门户网站的服务器会检测对应请求的载体身份标识如果检测到载体身份标识为某一款浏览器则认为是正常的请求否则认为是不正常的请求 UA伪装将对应的User-Agent封装到headers字典中 f12或者检查页面找到网络部分先清楚网络日志再刷新页面找到需要的请求对应的UA 然后把这个headers字典放入get请求中 import requestsheaders {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0 } url https://www.sogou.com/web keyword input() param {query: keyword } response requests.get(url, paramsparam, headersheaders) page_txt response.text filename keyword.html with open(filename, w, encodingutf-8) as fp:fp.write(page_txt) 破解百度翻译爬取百度翻译中对应单词翻译的结果由于我们不是想要爬取整个页面而是爬取页面中的部分信息经常需要用到数据解析但不使用数据解析也能获取局部信息这次我们就不使用从上面两张图我们可以看出输入单词后页面做了一个局部的刷新我们知道局部的刷新是可以通过Ajax实现的也就意味着我们在文本框中输入字符后会自动进行Ajax的请求发送Ajax请求成功后会对页面进行局部刷新经过分析我们是不是应该利用抓包工具捕获一下对应的Ajax请求点击XHRXHR中对应的是Ajax请求的数据包输入dog 在xhr类型中一个个找查看post请求携带的参数是d不清楚是什么东西所以接着往下看三个sug包对应的是每输入一个字符后的Ajax请求我们需要的是dog的翻译结果所以要抓最后一个sug包这样我们就拿到了请求的urlContent-Type这里是指我们输入一个字符后服务器端响应回来的是一组json串分析总结 1post请求(携带了参数) 2响应数据是一组json数据 import requests import jsonpost_url https://fanyi.baidu.com/sug headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36 HBPC/12.1.3.303 } word input() data {kw: word } response requests.post(urlpost_url, datadata, headersheaders) # 响应数据是json数据如果继续使用.text获取的是一组字符串形式的json而.json返回的是一个objjson是什么对象就是什么对象在这里是字典 dict_obj response.json() # 由于是字典对象所以不能直接write filename ./ word .json fp open(filename, w, encodingutf-8) json.dump(dict_obj, fp, ensure_asciiFalse) # 字典中有中文不用ascii编码豆瓣电影排名爬取豆瓣电影某一分区的电影排名以喜剧片为例第一种方法利用数据解析如果对当前url进行整个页面信息的爬取则能拿到页面信息再利用数据解析就可以获取电影名、主演名、上映时间等等信息第二种方法思考它会不会像百度翻译一样使用Ajax请求进行局部刷新呢我们用滚轮滑到底部发现新的电源被加载出来了滚轮回到中间但是我们的url并没有改变所以确实是一个Ajax请求加载新电影时果然捕获了一个Ajax请求GET请求且携带了5个参数服务器端返回json串 5个参数中我们大概可以猜测出来start和limit含义 start从豆瓣数据库中第几部电源开始取出来 limit取多少部在响应中看到json串是列表对象 import requests import jsonurl https://movie.douban.com/j/chart/top_list headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0 } param {type: 24,interval_id: 100:90,action: ,start: 0, # 从豆瓣数据库中第几部电源开始取出来limit: 20 # 一次取多少部 } response requests.get(url, paramsparam, headersheaders)list_obj response.json()fp open(douban_movie.json, w, encodingutf-8) json.dump(list_obj, fp, ensure_asciiFalse) 肯德基餐厅查询肯德基官方网站 - Welcome to KFC.com.cn 爬取肯德基餐厅位置输入关键字后发现url并没有改变说明是Ajax请求 import requests from bs4 import BeautifulSoupurl https://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?opkeyword headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0 } word input() data {cname: ,pid: ,keyword: word,pageIndex: 1,pageSize: 10 } response requests.post(url, datadata, headersheaders) text response.textwith open(kfc_ word .html, w, encodingutf-8) as fp:fp.write(text) 国家药监局化妆品生产许可证由于找不到网站在哪所以无法敲代码实战以下是需求分析

查看全文

http://www.pierceye.com/news/409088/