当前位置：首页 > news >正文

自适应网站做多大尺寸网站集约化建设存在的困难

news 2025/12/20 22:38:23

自适应网站做多大尺寸,网站集约化建设存在的困难,花都网站开发,自定义wordpress 登录一般的#xff0c;我们想抓取一个网站所有的URL#xff0c;首先通过起始URL#xff0c;之后通过网络爬虫提取出该网页中所有的URL链接#xff0c;之后再对提取出来的每个URL进行爬取#xff0c;提取出各个网页中的新一轮URL#xff0c;以此类推。整体的感觉就是自上而下进…一般的我们想抓取一个网站所有的URL首先通过起始URL之后通过网络爬虫提取出该网页中所有的URL链接之后再对提取出来的每个URL进行爬取提取出各个网页中的新一轮URL以此类推。整体的感觉就是自上而下进行抓取网页中的链接理论上来看可以抓取整站所有的链接。但是问题来了一个网站中网页的链接是有环路的。举个栗子在网站首页中我们可以看到首页这个链接之后我们在子网页中也有可能会看到有个链接是指向首页的可能子子网页还会有对应的链接指向首页。按照我们之前的逻辑抓取每个网页中的所有链接之后对所有的链接继续抓取。就拿首页来说我们首先抓取的就是它尔后子网页中又有个链接指向首页子子网页还有链接指向首页如此进行抓取岂不是会导致网页重复抓取其他的网页根本就没有机会去抓取了简直不敢想象~~要解决这个问题并不难此时就需要用到网络爬虫中了一个重要的知识点就是网页去重。首先介绍一个简单的思路也是经常用的一个通用思路。我们将已经爬取过的网页放到一个列表中去以首页为例当首页被抓取之后将首页放到列表中之后我们抓取子网页的时候如果再次碰到了首页而首页已经被抓取过了此时就可以跳过首页继续往下抓取其他的网页而避开了将首页重复抓取的情况这样下来爬取整站就不会出现一个环路。以这个思路为出发点将访问过的URL保存到数据库中当获取下一个URL的时候就去数据库中去查询这个URL是否已经被访问过了。虽然数据库有缓存但是当每个URL都去数据库中查询的话会导致效率下降的很快所以这种策略用的并不多但不失为最简单的一种方式。第二种方式是将访问过的URL保存到set中去通过这样方式获取URL的速度很快基本上不用做查询。但是这种方法有一个缺点将URL保存到set中实际上是保存到内存中当URL数据量很大的时候(如1亿条)会导致内存的压力越来越大。对于小型的爬虫来说这个方法十分可取但是对于大型的网络爬虫这种方法就难以企及了。第三种方式是将字符进行md5编码md5编码可以将字符缩减到固定的长度。一般来说md5编码的长度约为128bit约等于16byte。在未缩减之前假设一个URL占用的内存大小为50个字节一个字节等于2byte相当于100byte。由此可见进行md5编码之后节约了大量的内存空间。通过md5的方式可以将任意长度的URL压缩到同样长度的md5字符串而且不会出现重复的情况达到去重的效果。通过这种方式很大程度上节约了内存scrapy框架采取的方式同md5方式有些类似所以说scrapy在正常情况下即使URL的数量级达到了上亿级别其占用的内存比起set方式也要少得多。第四种方式是使用bitmap方法将字符进一步压缩。这种方式的意思是在计算机中申请8个bit即8个位每个位由0或者1表示这是计算机中最小的单元。8个位组成1个byte一个位代表一个URL的话为什么一个位可以确定一个URL呢因为我们可以将一个URL进行一个哈希函数然后将其映射到位上面去。举个栗子假设我们有8个URL分别对应8个位然后通过位上面的0和1的状态便可以表明这个URL是否存在通过这种方法便可以进一步的压缩内存。但是bitmap方法有一个非常大的缺点就是它的冲突会非常高因为同用一个哈希函数极有可能将两个不同的URL或者多个不同的URL映射到一个位置上来。实际上这种哈希的方法它也是set方式的一种实现原理它将URL进行一种函数计算然后映射到bit的位置中去所以这种方式对内存的压缩是非常大的。简单的来计算一下还是以一亿条URL来进行计算相当于一亿个bit通过计算得到其相当于12500000byte除以1024之后约为12207KB大概是12MB的空间。在实际过程中内存的占用可能会比12MB大一些但是即便是如此相比于前面三种方法这种方式以及大大的减少了内存占用的空间了。但是与此同时该方法产生冲突的可能性是非常大的所以这种方法也不是太适用的。那么有没有方法将bitmap这种对内存浓重压缩的方法做进一步优化让冲突的可能性降下来呢答案是有的就是第五种方式。第五种方式是bloomfilter该方法对bitmap进行改进它可以通过多个哈希函数减少冲突的可能性。通过这种方式一方面它既可以达到bitmap方法减少内存的作用另一方面它又同时起到减少冲突的作用。关于bloomfilter原理及其实现后期肯定会给大家呈上今天先让大家有个简单的认识。Bloomfilter适用于大型的网络爬虫尤其是数量级超级大的时候采用bloomfilter方法可以起到事半功倍的效果其也经常和分布式爬虫共同配合以达到爬取的目的。关于网络爬虫过程中去重策略的五种方式的介绍就先到这里了不懂的就当了解一下了科普一下下问题不大希望对小伙伴们的学习有所帮助。有个小伙伴提到上面的5种方法只是适用于在单进程的条件下如果是多进程下需要设置管道来进行信息交换同时也可以直接设置管道来代替set这种集合感谢这位不愿露面的大佬~~

查看全文

http://www.pierceye.com/news/127637/