广西营销型网站建设,沈阳男科医院哪家好点,海外广告投放代理商,网络服务提供者知道网络用户利用其网络服务侵害使用RPA工具#xff0c;实现针对于原创力中不可下载文档的抓取#xff0c;可延用于其他类似文库
1 使用工具、环境
影刀RPA、WPS Office、谷歌浏览器#xff08;非指定#xff09;
2 代码流程 3 关键点 此方案只适合抓取非VIP即可预览全文的文档#xff0c;抓取下来的数…使用RPA工具实现针对于原创力中不可下载文档的抓取可延用于其他类似文库
1 使用工具、环境
影刀RPA、WPS Office、谷歌浏览器非指定
2 代码流程 3 关键点 此方案只适合抓取非VIP即可预览全文的文档抓取下来的数据是图片 打开网址后需要鼠标向下滚动一段距离才能触发“下一页”按钮 在节点路径“//*[id“main”]/div[1]/div[3]/div[2]//img”下抓取链接src属性注意有些是文档中间的广告图片有效的文档其实是“//view-cache.book118.com”开头的链接需要过滤掉非此开头的广告链接如下 文档图片刷新很玄学需要上下滑动网页才能刷新出来代码中用了无限循环滚动鼠标等距离上下移动来解决检测到没有刷新时打转的“待刷新”才抓取图片链接 判断是否抓取到最后一页是对“继续预览”文字的检测如果不出现就说明已经是最后一页即可退出程序 按照原文档排序命名图片依次再插入word文档。因为影刀中列表的排序是要等字节的才能判断所以代码中将图片的名字和对应路径分别构造成字典的键和值再循环1到最大值依次取出字典的对应值插入word文档中实现和原文档一样的排序效果
4 执行结果图 5 完整程序