当前位置: 首页 > news >正文

深圳集团网站开发公司域名费用每年多少钱

深圳集团网站开发,公司域名费用每年多少钱,仿古建筑公司网站,重庆网站建设公司在线联系1. CSDN学院课程数据-写在前面 今天又要抓取一个网站了#xff0c;选择恐惧症使得我不知道该拿谁下手#xff0c;找来找去#xff0c;算了#xff0c;还是抓取CSDN学院吧#xff0c;CSDN学院的网站为 https://edu.csdn.net/courses 我看了一下这个网址#xff0c;课程数量… 1. CSDN学院课程数据-写在前面 今天又要抓取一个网站了选择恐惧症使得我不知道该拿谁下手找来找去算了还是抓取CSDN学院吧CSDN学院的网站为 https://edu.csdn.net/courses 我看了一下这个网址课程数量也不是很多大概有 6000 门课程数据量不大用单线程其实就能很快的爬取完毕不过为了秒爬我还是选用了一个异步数据操作。 2. CSDN学院课程数据-分析页码 还是需要好好的分析一下页码规律 https://edu.csdn.net/courses/p2 https://edu.csdn.net/courses/p3 https://edu.csdn.net/courses/p4 ... ... https://edu.csdn.net/courses/p271 页码还是非常有规律的直接编写代码就可以快速的爬取下来。出于人文关怀我还是把协程数限制在3要不顺发271个请求还是有点攻击的性质了。这样不好不符合我们的精神。 import asyncio import aiohttp from lxml import etreesema asyncio.Semaphore(3) async def get_html(url):headers {user-agent: 自己找个UA即可}本文来自 梦想橡皮擦 的博客地址为 https://blog.csdn.net/hihell 可以任意转载但是希望给我留个版权。print(正在操作{}.format(url))async with aiohttp.ClientSession() as s:try:async with s.get(url, headersheaders, timeout3) as res:if res.status200:html await res.text()html etree.HTML(html)get_content(html) # 解析网页print(数据{}插入完毕.format(url))except Exception as e:print(e)print(html)time.sleep(1)print(休息一下)await get_html(url)async def x_get_html(url):with(await sema):await get_html(url)if __name__ __main__:url_format https://edu.csdn.net/courses/p{}urls [url_format.format(index) for index in range(1, 272)]loop asyncio.get_event_loop()tasks [x_get_html(url) for url in urls]request loop.run_until_complete(asyncio.wait(tasks)) 3. CSDN学院课程数据-解析网页函数 网页下载到了之后需要进行二次处理然后才可以把他放入到mongodb中我们只需要使用lxml库即可 def get_content(html):course_item html.xpath(//div[classcourse_item])data []for item in course_item:link item.xpath(./a/href)[0] # 获取课程详情的链接方便我们后面抓取tags item.xpath(.//div[classtitleInfor]/span[classtags]/text()) # 获取标签title item.xpath(.//div[classtitleInfor]/span[classtitle]/text())[0] # 获取标题num item.xpath(.//p[classsubinfo]/span/text())[0] # 学习人数subinfo item.xpath(.//p[classsubinfo]/text())[1].strip() # 作者price item.xpath(.//p[contains(class,priceinfo)]/i/text())[0].strip() # 作者data.append({title:title,link:link,tags:tags,num:num,subinfo:subinfo,price:price})collection.insert_many(data)4. CSDN学院课程数据-数据存储 数据保存到mongodb中完成。 没有特别突出的地方简单易操作。 转载于:https://www.cnblogs.com/happymeng/p/10247882.html
http://www.pierceye.com/news/521050/

相关文章:

  • 专门做书单的网站网络营销策划方案的设计
  • 网站建设推广合同自己建设网站需要花多少钱
  • 深圳网站建设电话哈尔滨建设网站官网
  • 上海网站建设网页制作培训做网站做论坛赚钱吗
  • 为网站做电影花絮哈尔滨互联网公司
  • 哈尔滨微网站建设公司做网站被骗该咋样做
  • 做翻译 英文网站dede网站版权信息
  • 梅江区住房和城乡建设局官方网站品牌设计帮
  • 单页网站cms建设通会员多少一年
  • app营销型网站的特点公司建设网站怎么作账
  • 有免费做海报的网站吗制作表情包
  • 网站建设的平台做微课的网站
  • 有没有专门做美食海报的网站郑州网站建设搜q.479185700
  • 公司网站宣传做网站时版权怎么写
  • 可以在哪些网站 app做推广的建站官网模板
  • 网站建设标书卧龙区建网站
  • 东莞做网站软件嘉兴网站制作价格
  • 学网站建设 去那里合肥专业网站优化
  • 个人网站 备案 广告建设国际网站
  • 苏州建站推广公司做网站费用怎么记分录
  • 做的比较好的家具网站首页在win10下建设网站
  • 住房和城乡建设部网站 绿地网站备案有时间吗
  • 新开传奇手游新服网谷歌seo运营
  • 新河网站建设网站空间 jsp
  • 网站视频如何下载中国建盏
  • 做网站的叫什么软件细谈电商网站外链建设的策略
  • 免费网站制作视频教程广东东莞营销
  • 女生做网站运营累不累贵州省铁路建设办公室网站
  • 全球外贸网站排名go生物网站做蛋白定位
  • 网站的规划和建设方案中教在线3d建模培训