当前位置: 首页 > news >正文

安庆做网站的天津seo优化

安庆做网站的,天津seo优化,深圳网咯鸟网站建设公司怎么样,做海报的网站推荐Java XPath 使用#xff08;2023/08/29#xff09; 文章目录 Java XPath 使用#xff08;2023/08/29#xff09;1. 前言2. 技术选型3. 技术实现 1. 前言 众所周知#xff0c;Java 语言适合应用于 Web 开发领域#xff0c;不擅长用来编写爬虫。但在 Web 开发过程中有时又…Java XPath 使用2023/08/29 文章目录 Java XPath 使用2023/08/291. 前言2. 技术选型3. 技术实现 1. 前言 众所周知Java 语言适合应用于 Web 开发领域不擅长用来编写爬虫。但在 Web 开发过程中有时又存在爬取数据的需求此时采用其它语言编写独立爬虫模块的话存在维护不方便的问题所以此处笔者选择了使用 Java XPath 实现简单的爬虫功能如果爬虫需求较多且复杂还是推荐采用其它语言实现独立的爬虫模块。 2. 技术选型 JsoupXpath 优点使用简单缺点对 XPath 语法的支持有限 xsoup 优点使用简单缺点对 XPath 语法的支持有限 HtmlCleaner 优点使用简单缺点对 XPath 语法的支持有限 Java XPath 优点对 XPath 语法支持全面缺点对 xml 格式要求严格几乎没有 Html 可以通过解析 HtmlCleaner Java XPath 优点对 XPath 语法支持全面缺点使用相对复杂 3. 技术实现 以 http://www.jnswj.net/jsp/sw/jnsw-skhdsq.jsp 网站和 //*[idMainTable]/tbody/tr[position()5 and position()22]/td[position()1 or (position()9 and position()13)] XPath 表达式为例笔者测试了上述 5 种技术方案其中只有第 5 种方案通过了测试其它几种均出现了报错故此处仅介绍第 5 种方案的实现。 Maven 引入依赖 !-- 获取 HTML 页面内容 -- !-- https://mvnrepository.com/artifact/cn.hutool/hutool-http -- dependencygroupIdcn.hutool/groupIdartifactIdhutool-http/artifactIdversion5.8.21/version /dependency!-- 解析 HTML -- !-- https://mvnrepository.com/artifact/net.sourceforge.htmlcleaner/htmlcleaner -- dependencygroupIdnet.sourceforge.htmlcleaner/groupIdartifactIdhtmlcleaner/artifactIdversion2.29/version /dependency获取页面内容并解析获取结果 import cn.hutool.http.HttpUtil; import org.htmlcleaner.CleanerProperties; import org.htmlcleaner.DomSerializer; import org.htmlcleaner.HtmlCleaner; import org.htmlcleaner.TagNode; import org.w3c.dom.Document; import org.w3c.dom.Node; import org.w3c.dom.NodeList;import javax.xml.parsers.ParserConfigurationException; import javax.xml.xpath.XPath; import javax.xml.xpath.XPathConstants; import javax.xml.xpath.XPathExpressionException; import javax.xml.xpath.XPathFactory;/*** 测试 HtmlCleaner Java XPath.** author a hrefmailto:xiaoQQya126.comxiaoQQya/a* since 2023/08/29*/ private void test throws ParserConfigurationException, XPathExpressionException {// 获取 HTML 页面内容String url http://www.jnswj.net/jsp/sw/jnsw-skhdsq.jsp;String html HttpUtil.get(url);// 解析 HTML 页面内容HtmlCleaner hc new HtmlCleaner();TagNode tn hc.clean(html);Document document new DomSerializer(new CleanerProperties()).createDOM(tn);// 匹配获取需要的数据XPath xPath XPathFactory.newInstance().newXPath();String exp //*[id\MainTable\]/tbody/tr[position()5 and position()22]/td[position()1 or (position()9 and position()13)];NodeList nodes (NodeList) xPath.evaluate(exp, document, XPathConstants.NODESET);for (int length nodes.getLength(), i 0; i length; i) {Node item nodes.item(i);System.out.println(item.getTextContent());} }参考文章 Java - XPath解析爬取内容 - Jinkora - 博客园 (cnblogs.com);Intro to XPath with Java | Baeldung;zhegexiaohuozi/JsoupXpath: 纯Java实现的支持W3C Xpath 1.0标准语法的HTML解析器。A html parser with xpath base on Jsoup and Antlr4. Maybe it is the best in java.Just try it. (github.com);code4craft/xsoup: When jsoup meets XPath. (github.com);
http://www.pierceye.com/news/382573/

相关文章:

  • 广州个人网站建设公司jsp网站建设模板
  • 全国的网站建设网站建设肆金手指排名7
  • 做网站如何防止被抄袭17zwd一起做网站官网
  • 北京鲜花的网站建设做任务网站有哪些内容
  • 互联网营销网站建设印章在线生成
  • 厦门seo网站管理南宁广告网页设计人才招聘
  • 沂水住房与城乡建设局网站wordpress如何建立论坛
  • 贵州省文化旅游网站建设的必要性查网站流量的网址
  • 自己做的网站怎么传到空间啊平面设计技术培训机构
  • php 做网站xml地图回龙观手机网站开发服务
  • 四川建设工程网上合同备案网站如何重新打开wordpress
  • 免费个人网站模板下载qq邮箱企业邮箱注册
  • 泰兴市网站建设wp怎么打开wordpress
  • wordpress可以建哪些网站吗开发app需要多少人
  • 0基础学做网站什么做网站做个网站一般要多少钱啊
  • 外贸营销型网站建设多少钱wordpress付费浏览
  • 网站空间可以换吗进网站备案
  • 番禺建设网站开发软件工程专业介绍
  • 如何做网站定位网站建设报价新鸿儒
  • 商务网站建设包含了河北招投标公共服务平台
  • 高权重网站怎么发软文外贸平台app
  • nas服务器 做网站网页设计页面图片
  • 青海建设协会网站电子商务网站备案
  • 性价比高的广州网站建设不同用户入口的网站样板
  • 投资交易网站开发黑镜wordpress主题破解
  • 文化传媒公司网站建设西渡网站建设
  • 购物网站为什么做移动端seo优化快速排名
  • iis服务器网站301重定向怎么做国家企业信息公开网查询系统
  • 免费家具网站模板做网站去什么公司好
  • 五个网站南宁网页制作培训