网站好看的图标代码,湖南常德桃源县,西安响应式网站设计,广州深圳大数据核心技术概述
大数据基石三大论文#xff1a;GFS#xff08;Hadoop HDFS#xff09;、BigTable#xff08;Apache HBase#xff09;、MapReduce#xff08;Hadoop MapReduce#xff09;。
搜索引擎的核心任务#xff1a;一是数据采集#xff0c;也就是网页的爬…大数据核心技术概述
大数据基石三大论文GFSHadoop HDFS、BigTableApache HBase、MapReduceHadoop MapReduce。
搜索引擎的核心任务一是数据采集也就是网页的爬取二是数据搜索也就是索引的构建。 数据采集离不开存储索引的构建也需要大量计算所以存储容器和计算能力贯穿搜索引擎的整个更迭过程。
Google在 2003/2004/2006 年相继发布谷歌分布式文件系统 GFS(被Hadoop HDFS借鉴)、大数据分布式计算框架 MapReduce被Hadoop MapReduce借鉴、大数据 NoSQL数据库 BigTable (被Apache Hbase借鉴)这三篇论文奠定了大数据技术的基石。
大数据基石三大论文——GFS GFS解决复杂工程问题的设计细节如下
简化系统元信息Master 中维持了两个重要的映射分别是文件路径到逻辑数据块逻辑块与其多副本之间的关系。较大的数据块选择了当时看来相当大的 64M 作为数据存储的基本单位以此来减少元信息。放宽的一致性允许多副本间内容不一致来简化实现、提高性能通过读校验来保证损坏数据对用户不可见。高效副本同步在多副本同步时分离控制流和数据流利用网络拓扑提高同步效率。租约分散压力Master 通过租约将部分权力下放给某个 Chunkserver 负责某个块的多副本间的读写控制。追加并发优化多客户端对同一文件进行并发追加保证数据原子性及At Least Once的语义。快速备份支持使用 COWCopy on Write 策略实现快照操作并通过块的引用计数来进行写时拷贝。逐节点锁控制对于每个操作需要沿着文件路径逐节点获取读锁叶子节点获取读锁或者写锁当然文件路径会进行前缀压缩。异步垃圾回收将数据删除与其他一些主节点的维护操作损坏块清除过期数据块移除统一起来成为一个定期过程。版本号标记帮助客户端识别过期数据。数据块校验和针对每 64KB 的小块打上 32 bit 的校验和。
大数据基石三大论文——BigTable 大数据基石三大论文——MapReduce 大数据技术体系——以Hadoop为例
Hadoop1.0 Hadoop2.0 Hadoop的优势
易用性低成本Hadoop开源软件使用成本低Hadoop可以运行在廉价机器构成的大型集群上硬件使用成本低。高可靠性高容错性Hadoop能够保存数据的多个副本自动检测处理节点失败的情况并能够自动重新分配失败的任务。高效性Hadoop能够在节点之间动态的移动数据并保证各个节点的动态平衡因此处理速度非常快。高扩展性Hadoop在计算机集群上分配数据并完成计算任务计算机集群中可以增设节点。