当前位置: 首页 > news >正文

怎么在自己的网站上推广业务找建设企业网站公司

怎么在自己的网站上推广业务,找建设企业网站公司,毕业设计网站开发的中期报告,网站服务器租用年度价格背景 近期工作中要解决两个问题#xff0c;一个是数据组需要网爬一些图片数据#xff0c;另外一个是要批量爬取公司用于文档协同的一个网站上的附件。于是乎#xff0c;就写了两个脚本去完成任务。 爬虫思路 第一步#xff1a;向确定的url发送请求#xff0c;接收服务器…背景 近期工作中要解决两个问题一个是数据组需要网爬一些图片数据另外一个是要批量爬取公司用于文档协同的一个网站上的附件。于是乎就写了两个脚本去完成任务。 爬虫思路 第一步向确定的url发送请求接收服务器的响应信息如果是需要用户登录的网页需要手动获取cookie信息放入header中或者模拟登录自动获取cookie。 第二步对接收到的信息进行解析找到需要的标签内容通常是我们需要的图片或文件的url 第三步向目标url发送请求保存数据到本地。 python在网络爬虫方面提供了一些框架Scrapy、Pyspider等由于我们要实现的都是小功能用一些现成的库即可。 爬取附件 1、发送简单请求用urllib.request.urlopenurl就可以了但如果要加入headers则可用urllib.request.Request类构造一个request实例再调用urlopen发送请求。如要用到cookie 如果要实现模拟登录自动获取cookie可参考爬虫实战学习笔记_2 网络请求urllib模块设置请求头Cookie模拟登陆-CSDN博客 import urllib.requestheaders {Cookie: confluence.list.pages.cookielist-content-tree;.......}req urllib.request.Request(url, headersheaders) response urllib.request.urlopen(req) 2、解析响应体这里是要找到附件链接的图标在html中是a classfilename的标签元素。用到BeautifulSoup。 from bs4 import BeautifulSouphtml response.read().decode(utf8) soup BeautifulSoup(html, lxml) a_list soup.find_all(a) for a in a_list:if class in a.attrs:if filename in a[class]:filename a.text.strip()download_url a[href]print(download_url) 3、获得文件下载地址后发送请求将返回的响应保存到本地即可。这里发请求用的requests库用urllib.request应该也可以。 import requestsfile requests.get(download_url, headersheaders) save_path ./download/ if not os.path.exists(save_path):os.mkdir(save_path) save_file open(os.path.join(save_path, filename), wb) save_file.write(file.content) save_file.close() print(save ok) 遗留问题 上述脚本可针对特定网页进行附件爬取但多个网页如何先获取到所有网页地址是个棘手的问题。目前只能通过搜寻url规律发现里面的pageId是9位数字字符大概确定了范围进行暴力遍历。 爬取图片 网上关于百度、google爬取关键字图片的开源代码很多我也是找了一个开源代码进行稍微修改目前满足实际需要。这里附上代码供参考。 # -*- coding: UTF-8 -*- import requests import tqdm import os import jsondef configs(search, page, number):url https://image.baidu.com/search/acjsonparams {tn: resultjson_com,logid: 11555092689241190059,ipn: rj,ct: 201326592,is: ,fp: result,queryWord: search,cl: 2,lm: -1,ie: utf-8,oe: utf-8,adpicid: ,st: -1,z: ,ic: 0,hd: ,latest: ,copyright: ,word: search,s: ,se: ,tab: ,width: ,height: ,face: 0,istype: 2,qc: ,nc: 1,fr: ,expermode: ,force: ,pn: str(60 * page),rn: number,gsm: 1e,1617626956685: }return url, paramsdef loadpic(number, page, path):while (True):if number 0:breakurl, params configs(search, page, number)try:response requests.get(url, headersheader, paramsparams).content.decode(utf-8)result json.loads(response)url_list []for data in result[data][:-1]:url_list.append(data[thumbURL])for i in range(len(url_list)):getImg(url_list[i], 60 * page i, path)bar.update(1)number - 1if number 0:breakpage 1except Exception as e:print(e)continueprint(\nfinish!)def getImg(url, idx, result_path):img requests.get(url, headersheader)file open(result_path str(idx 1) .jpg, wb)file.write(img.content)file.close()if __name__ __main__:search 溜冰 # 爬取的关键词number 100 #爬取的目标数量result_path os.path.join(os.getcwd(), search)if not os.path.exists(result_path):os.mkdir(result_path)header {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36}bar tqdm.tqdm(totalnumber)page 0loadpic(number, page, result_path)
http://www.pierceye.com/news/29427/

相关文章:

  • 网站flash素材七牛云上市
  • 公司网站开发实施方案北京网站建设q.479185700強
  • 购物网站建设规划书范文用于制作网页的工具软件
  • 网站使用功能介绍是用什么软件做的wordpress 文档工具
  • seo整站如何优化怎么做娱乐电玩网站
  • 台州商品关键词优化网站建设赠送seo
  • 网站营销外包公司网站建设怎么建
  • 网站运营推广的方法有哪些人工智能公众号
  • 网站构成的基本结构郑州中心站
  • 简单做网站校园超市网站开发
  • 企业网站建设课件单位网站的建设
  • 做搜狗手机网站优化软小语种外贸建站
  • 企业网站建设费用 珠海手机网站赏析
  • 一起做英语网站外贸信托
  • 苏州网站建设的公司哪家好济南 网站推广
  • 游戏网站交换友情链接网上可以自学什么技术
  • 淮安哪里有做网站的人网站标题字数
  • 电子商务网站开发设计报告书物流网站 源码
  • 从哪个网站找钢做的微商wordpress 必装插件
  • 云南省住房和城乡建设厅官方网站wordpress 仪表盘很慢
  • 外贸自建站收款通道广州seo培训课程
  • 虚拟主机部署网站网代理加盟
  • 网站头部修改淘宝客不建立网站怎么做
  • 奇艺广州网站建设熊掌号番禺网站建设企业
  • 对网站建设过程游戏页面设计模板
  • 称多网站建设河南省教育厅官方网站师德建设
  • 龙岗高端网站建设小程序可做网站吗
  • 网站链接太多怎么做网站地图国家城乡住房建设厅网站
  • 特产网站源码扬中人才
  • 外贸网站建设制作专门做招商的网站是什么