交互网站开发,牛天下网站建设,网站建设的费用,怎么卸载安装好的wordpress原标题#xff1a;0基础如何入门HADOOP学习一样东西#xff0c;肯定先要了解这个东西是什么#xff0c;那什么是HADOOP呢#xff1f;我们就来看看什么是HADOOP和如何学习HADOOP及学习内容。一#xff0c;什么是HADOOPHADOOP是apache旗下的一套开源软件平台HADOOP提供的功能…原标题0基础如何入门HADOOP学习一样东西肯定先要了解这个东西是什么那什么是HADOOP呢我们就来看看什么是HADOOP和如何学习HADOOP及学习内容。一什么是HADOOPHADOOP是apache旗下的一套开源软件平台HADOOP提供的功能利用服务器集群根据用户的自定义业务逻辑对海量数据进行分布式处理HADOOP的核心组件有HDFS(分布式文件系统) YARN(运算资源调度系统) MAPREDUCE(分布式运算编程框架) 4.广义上来说HADOOP通常是指一个更广泛的概念——HADOOP生态圈二 Hadoop生态圈重点组件HDFS分布式文件系统MAPREDUCE分布式运算程序开发框架HIVE基于大数据技术(文件系统运算框架)的SQL数据仓库工具HBASE基于HADOOP的分布式海量数据库ZOOKEEPER分布式协调服务基础组件Mahout基于mapreduce/spark/flink等分布式运算框架的机器学习算法库Oozie工作流调度框架Sqoop数据导入导出工具Flume日志数据采集框架三 Hadoop集群搭建集群具体来说包含两个集群HDFS集群和YARN集群两者逻辑上分离但物理上常在一起。HDFS集群负责海量数据的存储集群中的角色主要有 NameNode / DataNodeYARN集群负责海量数据运算时的资源调度集群中的角色主要有 ResourceManager /NodeManager2.集群安装3.集群启动初始化HDFSbin/hadoop namenode -format启动HDFSsbin/启动YARNsbin/start-yarn.sh4. 集群初步使用1 查看集群状态命令 hdfs dfsadmin –report也可打开web控制台查看HDFS集群信息在浏览器打开http://hdp-node:50070/2 上传文件到HDFS查看HDFS中的目录信息命令 hadoop fs –ls /上传文件命令 hadoop fs -put ./ scala-2.10.6.tgz to /从HDFS下载文件命令hadoop fs -get /四HDFS1.设计思想分而治之将大文件、大批量文件分布式存放在大量服务器上以便于采取分而治之的方式对海量数据进行运算分析在大数据系统中作用为各类分布式运算框架(如mapreducesparktez……)提供数据存储服务重点概念文件切块副本存放元数据2. HDFS的概念和特性首先它是一个文件系统用于存储文件通过统一的命名空间——目录树来定位文件其次它是分布式的由很多服务器联合起来实现其功能集群中的服务器有各自的角色重要特性如下HDFS中的文件在物理上是分块存储(block)块的大小可以通过配置参数( )来规定默认大小在版本中是128M老版本中是64MHDFS文件系统会给客户端提供一个统一的抽象目录树客户端通过路径来访问文件形如hdfs://namenode:port/dir-a/dir-b/dir-c/目录结构及文件分块信息(元数据)的管理由namenode节点承担——namenode是HDFS集群主节点负责维护整个hdfs文件系统的目录树以及每一个路径(文件)所对应的block块信息(block的id及所在的datanode服务器)文件的各个block的存储管理由datanode节点承担---- datanode是HDFS集群从节点每一个block都可以在多个datanode上存储多个副本(副本数量也可以通过参数设置)HDFS是设计成适应一次写入多次读出的场景且不支持文件的修改(注适合用来做数据分析并不适合用来做网盘应用因为不便修改延迟大网络开销大成本太高)五 MapReduceMapreduce是一个分布式运算程序的编程框架是用户开发“基于hadoop的数据分析应用”的核心框架Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序并发运行在一个hadoop集群上六 yarnYarn是一个资源调度平台负责为运算程序提供服务器运算资源相当于一个分布式的操作系统平台而mapreduce等运算程序则相当于运行于操作系统之上的应用程序yarn的重要概念yarn并不清楚用户提交的程序的运行机制yarn只提供运算资源的调度(用户程序向yarn申请资源yarn就负责分配资源)yarn中的主管角色叫ResourceManageryarn中具体提供运算资源的角色叫NodeManager这样一来yarn其实就与运行的用户程序完全解耦就意味着yarn上可以运行各种类型的分布式运算程序(mapreduce只是其中的一种)比如mapreduce、storm程序spark程序tez ……所以spark、storm等运算框架都可以整合在yarn上运行只要他们各自的框架中有符合yarn规范的资源请求机制即可Yarn就成为一个通用的资源调度平台从此企业中以前存在的各种运算集群都可以整合在一个物理集群上提高资源利用率方便数据共享。返回搜狐查看更多责任编辑