当前位置: 首页 > news >正文

哪里可以做免费网站北京网站建设企业网站制作

哪里可以做免费网站,北京网站建设企业网站制作,重庆建设工程造价信息总站,官方网站建设流程上一讲讲的是获取静态网页数据的教程#xff0c;适用于我们要爬取的数据在网页源代码中出现#xff0c;但是还是有很多的数据是源代码中没有的#xff0c;需要通过接口访问服务器来获得#xff0c;下面我就来讲讲如何爬取这类数据。 以巨潮资讯网爬取比亚迪企业年报为例。…上一讲讲的是获取静态网页数据的教程适用于我们要爬取的数据在网页源代码中出现但是还是有很多的数据是源代码中没有的需要通过接口访问服务器来获得下面我就来讲讲如何爬取这类数据。 以巨潮资讯网爬取比亚迪企业年报为例。 正常人的操作 打开巨潮资讯网官网 找到比亚迪的公告 在分类里面选择筛选信息找到自己想要的信息 爬虫的思路 获取请求信息 在正常人的操作第三步当我们选择一个类别时毫无疑问浏览器肯定会对服务器发送请求信息服务器返回信息后我们才能看到想要的信息看一下怎么获取这个请求 按下F12或者是右键检查进入网络先清空乱七八糟的网络信息 当我们选择一个类别时会看到右边多出一个query请求这个就是我们向服务器发出的请求 我们可以查看query这条请求的信息 请求转换为代码 上一步我们获取到了请求信息我们就可以使用python造一个请求头主要包含请求头和请求负载我们荡当然可以使用比较奔的方法一个一个的复制粘贴把东西搬到代码上这里推荐一个工具能自动帮我们把请求格式化我们想要的 把请求复制下来 在Curl命令转代码工具 (sbox.cn)这个在线网站可以直接转换为python代码 请求返回信息 请求信息在调试窗口响应上查看当然也可以通过上一步通过代码获取的返回打印出来查看。 可以看到一个个报告主要是在announcements数组里通过直觉adjunctUrl可能是报告的存放地址来验证一下随便打开一个报告还是按照老方法查看网络请求可以看到pdf的请求是不是就是adjunctUrl加上前缀通过查看多个报告发现都是这个情况就可以大胆地去操作了。 请求url为‘http://static.cninfo.com.cn/’ “adjunctUrl” 保存的文件名称‘tileSecName’‘-’‘announcementTitle’ 完整代码 import requests from urllib import request cookies {JSESSIONID: F5C5C5CD40FE076E6139580808BEC6E3,cninfo_user_browse: 002594,gshk0001211,%E6%AF%94%E4%BA%9A%E8%BF%AA,_sp_ses.2141: *,routeId: .uc2,insert_cookie: 45380249,SID: add3de6c-70ed-4c9b-a201-723fbc753673,_sp_id.2141: f35a90ce-a735-4c68-a000-1eb385b581af.1694435068.2.1694520662.1694435105.3aee65c9-094e-48f8-af1d-67b97c9655a9, }headers {Accept: application/json, text/javascript, */*; q0.01,Accept-Language: zh-CN,zh;q0.9,en;q0.8,en-GB;q0.7,en-US;q0.6,Connection: keep-alive,Content-Type: application/x-www-form-urlencoded; charsetUTF-8,# Cookie: JSESSIONIDF5C5C5CD40FE076E6139580808BEC6E3; cninfo_user_browse002594,gshk0001211,%E6%AF%94%E4%BA%9A%E8%BF%AA; _sp_ses.2141*; routeId.uc2; insert_cookie45380249; SIDadd3de6c-70ed-4c9b-a201-723fbc753673; _sp_id.2141f35a90ce-a735-4c68-a000-1eb385b581af.1694435068.2.1694520662.1694435105.3aee65c9-094e-48f8-af1d-67b97c9655a9,Origin: http://www.cninfo.com.cn,Referer: http://www.cninfo.com.cn/new/disclosure/stock?platestockCode002594orgIdgshk0001211,User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.76,X-Requested-With: XMLHttpRequest, }data {stock: 002594,gshk0001211,tabName: fulltext,pageSize: 30,pageNum: 1,column: szse,category: category_ndbg_szsh;,plate: sz,seDate: ,searchkey: ,secid: ,sortName: ,sortType: ,isHLtitle: true, }response requests.post(http://www.cninfo.com.cn/new/hisAnnouncement/query,cookiescookies,headersheaders,datadata,verifyFalse, ).json() #print(response.find(totalRecordNum)) for i in response[announcements]:reportNamei[tileSecName]-i[announcementTitle]print(reportName)reportUrl http://static.cninfo.com.cn/ i[adjunctUrl]print(reportUrl)request.urlretrieve(reportUrl, r./AnnualReport/reportName.pdf)有的分类不只有一页数据 可以看到totalpages这个字段跟页数有关当只有一页的时候为0两页的时候为1请求头只有’pageNum’不一样请求头’pageNum’与响应‘totalpages’是对应的我们就可以这样写程序 import requests from urllib import request cookies {JSESSIONID: 5606FC5CD576740918585289AE035EF6,cninfo_user_browse: 002594,gshk0001211,%E6%AF%94%E4%BA%9A%E8%BF%AA,routeId: .uc1,SID: ebbaf14c-1c51-48b5-8a56-e67112c85c8e,_sp_ses.2141: *,_sp_id.2141: f35a90ce-a735-4c68-a000-1eb385b581af.1694435068.5.1694942471.1694940568.9c03aa1e-99d7-4c7b-95a5-0475f67ce2dc, }headers {Accept: application/json, text/javascript, */*; q0.01,Accept-Language: zh-CN,zh;q0.9,en;q0.8,en-GB;q0.7,en-US;q0.6,Connection: keep-alive,Content-Type: application/x-www-form-urlencoded; charsetUTF-8,# Cookie: JSESSIONID5606FC5CD576740918585289AE035EF6; cninfo_user_browse002594,gshk0001211,%E6%AF%94%E4%BA%9A%E8%BF%AA; routeId.uc1; SIDebbaf14c-1c51-48b5-8a56-e67112c85c8e; _sp_ses.2141*; _sp_id.2141f35a90ce-a735-4c68-a000-1eb385b581af.1694435068.5.1694942471.1694940568.9c03aa1e-99d7-4c7b-95a5-0475f67ce2dc,Origin: http://www.cninfo.com.cn,Referer: http://www.cninfo.com.cn/new/disclosure/stock?tabNamedataorgIdgshk0001211stockCode002594,#User-Agent:Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1,User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.81,X-Requested-With: XMLHttpRequest, }data {stock: 002594,gshk0001211,tabName: fulltext,pageSize: 30,pageNum: 1,column: szse,category: category_sf_szsh;,plate: sz,seDate: ,searchkey: ,secid: ,sortName: ,sortType: ,isHLtitle: true, }proxies {http: http://60.182.197.86:8888,https: https://60.182.197.86:8888 }response requests.post(http://www.cninfo.com.cn/new/hisAnnouncement/query,cookiescookies,headersheaders,datadata,#proxiesproxies, #使用代理ip防止反爬verifyFalse, ).json()print(总的页数str(response[totalpages])) print(总的数目str(response[totalRecordNum])) num0 for i in range(1,2response[totalpages]):#print(i)data[pageNum]iresponse requests.post(http://www.cninfo.com.cn/new/hisAnnouncement/query,cookiescookies,headersheaders,datadata,#proxiesproxies, # 使用代理ip防止反爬verifyFalse,)if response.status_code200:print(response.text)responseresponse.json()for j in response[announcements]:reportNamej[tileSecName]-j[shortTitle]#print(reportName)reportUrl http://static.cninfo.com.cn/ j[adjunctUrl]#print(reportUrl)request.urlretrieve(reportUrl, r./AnnualReport/reportName.replace(/,-).pdf)print(num)numnum1print(r./AnnualReport/reportName.pdf下载完成)
http://www.pierceye.com/news/538483/

相关文章:

  • 东营wordpress网站建设网站底部放什么
  • 网站备案应该怎么做90自己做网站
  • wordpress网站基础知识天津泰达建设集团网站
  • 加强红色网站建设网页设计图片显示不出来
  • 玉林网站建设徐州铜山区
  • 福建网站建建设方案单一产品销售网站建设模板
  • 免费开源门户网站系统网站seo优化如何做
  • html网站分页怎么做wordpress cms plugin
  • 一个网站如何做seo优化卖书网站开发的背景
  • jsp网站开发源码实例广州网站优化排名推广
  • 网站建设中网站需求分析报告百度网盘电脑版下载
  • 爱做网站网址工商网站注册公司
  • 住房和城乡建设部网站下载魔改wordpress主题
  • dremrever怎么做网站阿里云php网站建设教程
  • 网站建设课程旅行社手机网站建设方案
  • 书店网站建设策划书总结关于外贸公司的网站模板
  • 张家港市规划建设网站房地产估价师
  • 创建网站有什么用南京做网站优化的企业
  • 网站seo设置是什么怎么知道网站被百度k了
  • 个人网站开发的意义自己建设网站需要什么手续
  • 网站的建设流程怎样使用仿站小工具做网站
  • 佛山企业模板建站企业微信管理系统
  • 百度推广登录网站网站开发需要什么技术人员
  • 有关网站升级建设的申请书中国工业设计公司
  • 线上销售怎么做优化网站哪家好
  • 成都网站建设备案audio player wordpress 使用
  • 做网站设计的公司上海装修公司名字
  • 处理器优化软件se 网站优化
  • 网站制作公司汉狮网络电子商务网站建设评估的指标有哪些?
  • asp网站伪静态教程网站建设多少钱实惠湘潭磐石网络