当前位置: 首页 > news >正文

廊坊网站建站网站基于网站开发app

廊坊网站建站网站,基于网站开发app,wordpress首页调用文章数,搭建网站的方法相信训练模型时数据集的获取也是一个很头疼的事情#xff0c;搞cv领域的可以扛着摄像头架起三脚架拍摄获取#xff08;以前干过#xff09;#xff0c;但是如果是nlp领域的呢#xff0c;特别是chatgpt等大模型出来后对这类文本等数据的需求更大#xff0c;如果没有现成的… 相信训练模型时数据集的获取也是一个很头疼的事情搞cv领域的可以扛着摄像头架起三脚架拍摄获取以前干过但是如果是nlp领域的呢特别是chatgpt等大模型出来后对这类文本等数据的需求更大如果没有现成的数据集的话基本上很难自己创造数据所以爬取视为其中一个手段获取数据但是提醒一下要合法获取数据哦。 那么下面就以简单的批量获取mp3文件为例。 假设我们要获取网易云飙升榜的所有音乐文件 地址为https://music.163.com/#/discover/toplist?id19723756 首先f12打开开发者工具 选择network然后根据歌曲名复制到搜索框然后点击清理按键清理所有的请求信息。 然后点击刷新页面可以看到出现了很多新的请求信息这里打开抓包再开始请求是因为刚才的请求信息可能是有延迟的请求信息并不全这里重新获取的比较全面。 在左边搜索框搜索出来的点击就可以看到定位到的位置在li标签的a标签里面接下来我们先查看请求信息get获取一下信息打印出来看看 选择headers要获取两个信息一个是url一个是request headers底下的user agent。复制这两个信息开始下面的代码 import requests import re # 正则表达式的库url https://music.163.com/discover/toplist?id19723756 headers {user-agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36 } response requests.get(urlurl, headersheaders) print(response.text)运行后打印出获取到的信息接下来开始从中提取想要的内容ctrl f定位到歌名可以看到是包裹在li标签中因为我们想要下载的是mp3格式的文件看到mp3的下载地址的组成包括id而id就是和歌名一一对应的所以我们for循环获取每个歌名及id来下载对应的mp3文件 我们先拿这个“双星”举例他的组成是这样的lia href/song?id2068206782双星/a/li所以我们可以用正则表达式来通用表示所有的歌名的标签组成lia href/song\?id(\d)(.*?)/a代码如下 html_data re.findall(lia href/song\?id(\d)(.*?)/a, response.text) # print(html_data) for num_id, title in html_data:music_url fhttp://music.163.com/song/media/outer/url?id{num_id}.mp3 # mp3文件地址music_content requests.get(urlmusic_url, headersheaders).contentwith open(/home/alpha/桌面/results/ title .mp3, modewb) as f: # 下载每个mp3文件f.write(music_content)print(num_id, title)运行结果 这样就爬取下当前页面下全部的mp3文件了。
http://www.pierceye.com/news/296676/

相关文章:

  • 太原做网站联系方式番禺人才网招聘网
  • 怎样推广一个网站东莞市建设工程检测中心网站
  • 哪个网站做招聘海报比较好搜索公众号
  • 外包给网站建设注意事项营销方法有哪些方式
  • 提供手机网站制作公司网站建设与域名建设
  • 网站建设计入哪个明细科目网站公众号建设工具
  • 自己做公司网站难吗域名备案管局审核要多久
  • 电子商务网站建设花费百度公司的业务范围
  • 虹口网站建设公司在线观看视频网站怎么做
  • 哈尔滨市建设安全监察网站_首页新津网站建设
  • 安卓 网站整站下载网址导航怎么更换
  • 数据展示网站模板备案 非网站备案
  • 邯郸做网站推广找谁jsp做的网站代码
  • php网站开发怎么接私活全能医院网站管理系统
  • 观止网站建设10元建站
  • 什么网站做聚乙烯醇好的三亚旅游攻略
  • 建设网站目的直播间网站开发
  • 网站项目评价怎么在网站上做签到
  • 深圳网站建设制作哪家好长春网站开发培训
  • 模板下载网站网络公司网站开发
  • 广州市酒店网站设计重庆网站seo设计
  • p2p网站如何建设网站建设 源美设计
  • 电商网站建设图片ps网站首页设计图
  • 网站优化简历模板用土豆做美食的视频网站
  • 帮企业建设网站销售微信朋友圈广告在哪里做
  • 曲阜做网站的公司wordpress两个域名
  • 做设备租赁的网站如何把自己做的网站发布到网上
  • 做网站运营有前景吗关于网站建设意见和建议
  • 如何给网站的关键词做排名南海做网站公司
  • 仿站软件邢台手机网站建设价格