一个好网站建设,怎么做网站官方电话,建设部执业资格注册中心网站查询,北京网站建设seo公司哪家好目录
一、大数据概论
1.大数据的概念
2.大数据的特点
3.大数据应用场景
二、Hadoop概述
1.Hadoop定义
2.Hadoop发展历史
3.Hadoop发行版本
4.Hadoop优势
5.Hadoop1.x/2.x/3.x
6.HDFS架构
7.Yarn架构
8.MapReduce架构
9.大数据技术生态体系 一、大数据概论
1.大数…目录
一、大数据概论
1.大数据的概念
2.大数据的特点
3.大数据应用场景
二、Hadoop概述
1.Hadoop定义
2.Hadoop发展历史
3.Hadoop发行版本
4.Hadoop优势
5.Hadoop1.x/2.x/3.x
6.HDFS架构
7.Yarn架构
8.MapReduce架构
9.大数据技术生态体系 一、大数据概论
1.大数据的概念
指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据主要解决海量数据的采集、存储和分析计算问题。
顺序存储单位bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
1Byte8bit1KB1024Byte1MB1024KB......
2.大数据的特点
①Volume大量典型个人计算机硬盘容量为TB量级一些大型企业可以达到EB量级。
②Velocity高速根据IDC的数字宇宙报告预计2025年全球数据使用量可以达到163ZB。
③Variety多样数据可以分为结构化数据和非结构化数据。结构化数据主要以便于存储的数据库/文本为主非结构化数据包含了网络日志、音频、视频、图片、地理位置信息等多类型数据对于数据的处理能力具有更高要求。
④Value低价值密度价值密度的高低与数据总量大小成反比。快速对有价值数据“提纯”成为目前大数据背景下待解决的难题。
3.大数据应用场景
抖音、电商广告推荐、零售策略、保险海量数据挖掘及风险预测...、金融多维体现用户推荐、人工智能5G物联网方面等。
二、Hadoop概述
1.Hadoop定义
Hadoop是一个由Apache基金会所开发的分布式系统基础架构主要解决海量数据的存储和海量数据的分析计算问题。
广义上来说Hadoop通常是指一个更广泛的概念——Hadoop生态圈。
2.Hadoop发展历史
①Hadoop创始人Doug Cutting为实现Google类似的全文搜索功能在Lucene框架基础上进行优化升级查询引擎和索引引擎。
②2001年底Lucene成为Apache基金会的一个子项目。
③对于海量数据的场景Lucene框架面对与Google同样的困难存储海量数据困难检索海量速度慢。
④学习和模仿Google解决这些问题的办法微型版Nutch。
⑤Google是Hadoop的思想源泉
⑥2003-2004年Google公开GFs和MapReduce思想细节Doug Cutting等人使用两年时间实现使Nutch性能飙升。
⑦Hadoop作为Lucene子项目Nutch一部分正式引入Apache。
⑧2006年Map-Reduce和Nutch Distributed FileSystem纳入Hadoop项目Hadoop正式诞生。
3.Hadoop发行版本
Apache2006、Cloudera2008、Hortonworks2011。
4.Hadoop优势
①高可靠性Hadoop底层维护多个数据副本即使Hadoop某个计算元素或存储出现故障也不会导致数据丢失。
②高扩展性在集群间分配任务数据可方便的扩展数以千计的结点。可动态增加和删除服务器。
③高效性在MapReduce的思想下Hadoop是并行工作的以加快任务处理速度。可以实现集群工作。
④高容错性能够自动将失败的任务重新分配。就是在执行过程中如果遇到任务无法执行将会把这个失败的任务重新分配到其他服务器这个被分配的服务器需要具有相关资源。
5.Hadoop1.x/2.x/3.x
①Hadoop1.x组成 MapReduce计算资源调度 HDFS数据存储 Common辅助工具
②Hadoop2.x组成 MapReduce计算 Yarn资源调度 HDFS数据存储 Common辅助工具
③Hadoop3.x组成组成上和2.x相同但是细节方面存在差异。 MapReduce计算 Yarn资源调度 HDFS数据存储 Common辅助工具
6.HDFS架构
Hadoop Distributed File System简称HDFS是一个分布式文件系统。
①NameNodenn存储文件的元数据如文件名、文件目录、文件属性生成时间、副本数、文件权限以及每个文件的块列表和块所在的DataNode等。
②DataNodedn在本地文件系统存储文件块数据以及块数据的校验和。
③Secondary NameNode2nn每隔一段时间对NameNode元数据备份。
7.Yarn架构
Yet Anothor Resource Negotiator简称YARN是一种资源协调者是Hadoop的资源管理器。
①ResourceManagerm整个集群资源内存、CPU等的总负责。
②NodeManagernm单个节点服务器资源总和。
③ApplicationMasteram单个任务运行的总和。
④Container容器相当于一台独立服务器里面封装了任务运行所需要的资源比如内存、CPU、磁盘、网络等。一个Container可以运行1-8g内存。
Tips客户端可以有多个集群上可以运行多个ApplicationMaster每个NodeManager可以有多个Container执行。
过程client提交作业给ResourceManagerResourceManager进行节点服务器分配在ResourceManager中创建Container在Container里面运行任务。
8.MapReduce架构
MapReduce将计算过程分为两个阶段Map和Reduce。 Map阶段并行处理输入数据 Reduce阶段对Map结果进行汇总。
9.大数据技术生态体系 数据库结构化数据→Sqoop数据传递→HDFS文件传输→Yarn资源管理... 文件日志半结构化数据→Flume日志收集→HDFS文件传输→HBase非关系型数据库→Yarn资源管理... 视频、PPT等非结构数据→Kafka消息队列...