当前位置: 首页 > news >正文

网站建设学徒网站程序制作教程

网站建设学徒,网站程序制作教程,网站备案怎么取消,优秀的网站设计案例从用户请求的Headers反反爬 在访问某些网站的时候#xff0c;网站通常会用判断访问是否带有头文件来鉴别该访问是否为爬虫#xff0c;用来作为反爬取的一种策略。很多网站都会对Headers的User-Agent进行检测#xff0c;还有一部分网站会对Referer进行检测#xff08;一些资…从用户请求的Headers反反爬 在访问某些网站的时候网站通常会用判断访问是否带有头文件来鉴别该访问是否为爬虫用来作为反爬取的一种策略。很多网站都会对Headers的User-Agent进行检测还有一部分网站会对Referer进行检测一些资源网站的防盗链就是检测Referer。针对这种反爬机制我们可以伪装headers将浏览器的User-Agent复制到爬虫的Headers中或者将Referer值修改为目标网站域名或者为上一个请求地址。 分析Chrome的头信息 访问请求头中包含了浏览器以及系统的信息headers所含信息众多其中User-Agent就是用户浏览器身份的一种标识具体可自行查询、Referer、Cookie。 代码 引入依赖 dependencygroupIdorg.jsoup/groupIdartifactIdjsoup/artifactIdversion1.16.1/version/dependencydependencygroupIdcom.alibaba/groupIdartifactIdeasyexcel/artifactIdversion3.3.2/version/dependencySpringBootTest class CrawlerApplicationTest {Testvoid contextLoads() {SetString domainResult new HashSet();String urlStr http://ssssss.com/domain;int pageSize 0;try {for (int i 0; i 194994; i) {String crawlerUrl ;if (i 0) {crawler(urlStr, domainResult, null); // crawlerUrl http://swkong.com/domain/index pageSize .html; // System.out.println(pageSize); // System.out.println(crawlerUrl);} else {String referrerUrl ;if (i 1) {referrerUrl http://ssssss.com/domain;} else {referrerUrl http://ssssss.com/domain/index (pageSize - 1) .html;}crawlerUrl http://ssssss.com/domain/index pageSize .html;crawler(crawlerUrl, domainResult, referrerUrl);System.out.println(pageSize);pageSize 1;System.out.println(crawlerUrl);System.out.println(referrerUrl);}System.out.println(-----------------------------);}} catch (Exception e) {e.printStackTrace();System.out.println(domainResult.size());System.out.println(catch);} finally {System.out.println(domainResult.size());writeExcel(domainResult);}}public void crawler(String urlStr, SetString domainResult, String referrer) throws IOException, InterruptedException {Document parse sendRequest(urlStr, referrer);Elements dispdomain Objects.requireNonNull(parse.getElementById(dispdomain)).getElementsByAttribute(href);getDomain(dispdomain, domainResult);System.out.println(请求地址 urlStr);System.out.println(__________________________________________); // Elements xpage Objects.requireNonNull(parse.getElementById(xpage)).getElementsByAttribute(href); // System.out.println(xpage); // String crawlerUrl http://swkong.com xpage.get(page).attr(href);}public void getDomain(Elements elements, SetString result) {for (int i 0; i elements.size(); i) {String attr elements.get(i).select(a).attr(href);if (attr.contains(?q)) {String s attr.split(q)[1];result.add(s);}}System.out.println(result.size());}public Document sendRequest(String urlStr, String referrer) throws IOException {MapString, String cookies new HashMap();cookies.put(cargo_keyword, xxxxxxxxxxxxxxxxx);cookies.put(PHPSESSID, xxxxxxxxxxxxxxxxx);cookies.put(language, zh-cn);if (StringUtils.hasText(referrer)) {return Jsoup.connect(urlStr).timeout(5000).ignoreContentType(true).userAgent(Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36).cookies(cookies).referrer(referrer).get();}return Jsoup.connect(urlStr).timeout(5000).ignoreContentType(true).userAgent(Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36).cookies(cookies).get();}public void writeExcel(SetString domainResult) {ListDomainDto resultExcel new ArrayList();for (String domain : domainResult) {DomainDto domainDto new DomainDto();domainDto.setDomainUrl(domain);resultExcel.add(domainDto);}String path D:\\ System.currentTimeMillis() .xlsx;EasyExcel.write(path, DomainDto.class).sheet(域名).doWrite(resultExcel);}
http://www.pierceye.com/news/277044/

相关文章:

  • 成都网站建设公司有哪些内容必应搜索
  • 青岛建设集团招聘信息网站公司官网怎么制作
  • 本溪网站开发公司电话县蒙文网站建设汇报
  • 广州建网站有哪些怎么做网站建设赚钱
  • led视频网站建设邯郸建设信息网站
  • 开发网站培训班网站详情页用cdr做可以吗
  • 相亲网站开发与设计报告广州网站维护
  • 门户网站 技术方案北京感染人数最新消息
  • 网站制作过程流程酷家乐在线设计官网
  • 六年级做网站的软件小程序开发文档微信小程序
  • 做网站要准备哪些汕头建站公司模板
  • 杭州多语言网站建设网站转app工具
  • 一流的网站建设wordpress 读者墙
  • php 视频播放网站开发php做直播类型的网站
  • 网站建设氺金手指排名11wordpress手机端菜单
  • 存储网站建设软件界面设计图
  • 微信 公司网站 怎么做WordPress安装在Windows
  • 商丘给企业做网站的公司已备案域名租用
  • .net商城网站模板下载网站开发怎么对接客户
  • php程序员网站开发域名企业备案对网站的好处
  • 沈阳市城乡建设网站wordpress全文
  • 冉冉科技网站建设网络教学平台网址
  • 深圳网站设计建设公司宁波易通建设网站
  • 许昌网站建设公司网站的空间和域名
  • 公司查询网站查询系统wordpress简书主题
  • 公司网站 钓鱼网站ui设计交付物都包含哪些
  • seo网站导航建设技巧精东影视传媒文化管理公司
  • 做白酒的网站怎么查网站建设是哪家公司
  • 网站域名密码免费网站推广产品
  • 网站建设一般要多少费用申请网站官网