当前位置: 首页 > news >正文

可视化网站模板编辑软件wordpress 付费字段

可视化网站模板编辑软件,wordpress 付费字段,唐山网架公司,wordpress主题残留背景 近期工作中要解决两个问题#xff0c;一个是数据组需要网爬一些图片数据#xff0c;另外一个是要批量爬取公司用于文档协同的一个网站上的附件。于是乎#xff0c;就写了两个脚本去完成任务。 爬虫思路 第一步#xff1a;向确定的url发送请求#xff0c;接收服务器…背景 近期工作中要解决两个问题一个是数据组需要网爬一些图片数据另外一个是要批量爬取公司用于文档协同的一个网站上的附件。于是乎就写了两个脚本去完成任务。 爬虫思路 第一步向确定的url发送请求接收服务器的响应信息如果是需要用户登录的网页需要手动获取cookie信息放入header中或者模拟登录自动获取cookie。 第二步对接收到的信息进行解析找到需要的标签内容通常是我们需要的图片或文件的url 第三步向目标url发送请求保存数据到本地。 python在网络爬虫方面提供了一些框架Scrapy、Pyspider等由于我们要实现的都是小功能用一些现成的库即可。 爬取附件 1、发送简单请求用urllib.request.urlopenurl就可以了但如果要加入headers则可用urllib.request.Request类构造一个request实例再调用urlopen发送请求。如要用到cookie 如果要实现模拟登录自动获取cookie可参考爬虫实战学习笔记_2 网络请求urllib模块设置请求头Cookie模拟登陆-CSDN博客 import urllib.requestheaders {Cookie: confluence.list.pages.cookielist-content-tree;.......}req urllib.request.Request(url, headersheaders) response urllib.request.urlopen(req) 2、解析响应体这里是要找到附件链接的图标在html中是a classfilename的标签元素。用到BeautifulSoup。 from bs4 import BeautifulSouphtml response.read().decode(utf8) soup BeautifulSoup(html, lxml) a_list soup.find_all(a) for a in a_list:if class in a.attrs:if filename in a[class]:filename a.text.strip()download_url a[href]print(download_url) 3、获得文件下载地址后发送请求将返回的响应保存到本地即可。这里发请求用的requests库用urllib.request应该也可以。 import requestsfile requests.get(download_url, headersheaders) save_path ./download/ if not os.path.exists(save_path):os.mkdir(save_path) save_file open(os.path.join(save_path, filename), wb) save_file.write(file.content) save_file.close() print(save ok) 遗留问题 上述脚本可针对特定网页进行附件爬取但多个网页如何先获取到所有网页地址是个棘手的问题。目前只能通过搜寻url规律发现里面的pageId是9位数字字符大概确定了范围进行暴力遍历。 爬取图片 网上关于百度、google爬取关键字图片的开源代码很多我也是找了一个开源代码进行稍微修改目前满足实际需要。这里附上代码供参考。 # -*- coding: UTF-8 -*- import requests import tqdm import os import jsondef configs(search, page, number):url https://image.baidu.com/search/acjsonparams {tn: resultjson_com,logid: 11555092689241190059,ipn: rj,ct: 201326592,is: ,fp: result,queryWord: search,cl: 2,lm: -1,ie: utf-8,oe: utf-8,adpicid: ,st: -1,z: ,ic: 0,hd: ,latest: ,copyright: ,word: search,s: ,se: ,tab: ,width: ,height: ,face: 0,istype: 2,qc: ,nc: 1,fr: ,expermode: ,force: ,pn: str(60 * page),rn: number,gsm: 1e,1617626956685: }return url, paramsdef loadpic(number, page, path):while (True):if number 0:breakurl, params configs(search, page, number)try:response requests.get(url, headersheader, paramsparams).content.decode(utf-8)result json.loads(response)url_list []for data in result[data][:-1]:url_list.append(data[thumbURL])for i in range(len(url_list)):getImg(url_list[i], 60 * page i, path)bar.update(1)number - 1if number 0:breakpage 1except Exception as e:print(e)continueprint(\nfinish!)def getImg(url, idx, result_path):img requests.get(url, headersheader)file open(result_path str(idx 1) .jpg, wb)file.write(img.content)file.close()if __name__ __main__:search 溜冰 # 爬取的关键词number 100 #爬取的目标数量result_path os.path.join(os.getcwd(), search)if not os.path.exists(result_path):os.mkdir(result_path)header {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36}bar tqdm.tqdm(totalnumber)page 0loadpic(number, page, result_path)
http://www.pierceye.com/news/148239/

相关文章:

  • 哪个网站设计好互助网站制作公司
  • 网站建设评估报告惠民建设局网站
  • 网站后台上传模板aspnet网站开发实例论文
  • 顺德公司做网站网站美工和网页设计的区别
  • 江苏建设造价信息网站山东丽天建设集团网站
  • 兰州网站建设程序wordpress自动超链接
  • zencart网站模板下载怎么自己建立网站及建立网站方法
  • 孝感市门户网站各大网站怎么把世界杯做头条
  • 手机端网站开发视频教程怎么制作爆米花教程
  • 温岭做网站公司开发一个企业官网多少钱
  • 宿迁明远建设有限公司网站赣州58同城网招聘找工作
  • 网站未续费到期后打开会怎样wordpress 顶部栏 悬浮
  • 内部优惠券网站怎么做大连网站制作建设
  • 经营虚拟网站策划书福建设备公司网站
  • 网站建设费用明细报价wordpress暗箱
  • 南宁网站建公司电话福州建站服务
  • 有没有什么推荐的网站用 php网站建设打出一首古诗
  • 品牌网站建设浩森宇特wordpress 首页 缩略图
  • 一个主机可以做几个网站域名织梦cms网站更新
  • 知名网站有哪些网站开发是什么环境
  • 哪些网站是用wordpress开发一款视频app多少钱
  • 济南网站定制制作建设项目 环评申报网站
  • 无锡响应式网站设计wordpress站群管理系统
  • 主题网站策划设计书网络营销是什么的一项活动
  • python+网站开发实例教程免费做视频网站
  • 免费建站自己的网址美化网站公司
  • 做购物网站哪个cms好用网络规划与设计就业前景
  • wordpress仿站工具网站建设jw100
  • 网站推广过程叙述关键词歌词
  • vip影视网站如何做appwordpress centos查看目录