做封面图的网站,做一个公司的网站应做哪些准备,如何给企业做网络推广赚钱,办一个网站要多少钱Hadoop学习之整体介绍及环境搭建
1 大数据概述
1.1 什么是大数据
数据(data)是事实或观察的结果#xff0c;是对客观事物的逻辑归纳#xff0c;是用于表示客观事物的未经加 工的的原始素材。
大数据#xff1a;传统处理方式无法解决的不仅大而且复杂的数据集的存储和计算… Hadoop学习之整体介绍及环境搭建
1 大数据概述
1.1 什么是大数据
数据(data)是事实或观察的结果是对客观事物的逻辑归纳是用于表示客观事物的未经加 工的的原始素材。
大数据传统处理方式无法解决的不仅大而且复杂的数据集的存储和计算。
1.2 大数据的四个特性
1容量Volume数据的大小决定所考虑的数据的价值和潜在的信息
2种类Variety数据类型的多样性包括文本图片视频音频等
3速度Velocity指获得数据的速度以及处理数据的速度
4价值Value合理运用大数据以低成本创造高价值
容量大种类多速度快产生数据的速度快,要求时延小 价值高 整体价值,单条记录没有价值
1.3 大数据价值应用
将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性可用来政治经济国庆调控、察觉 商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等。
2 Hadoop概述
2.1 什么是Hadoop
大数据存储和计算的一整套解决方案,软件平台。
Hadoop 提供的功能利用服务器集群根据用户的自定义业务逻辑对海量数据进行分 布式处理
2.2 Hadoop的核心组件
Common(基础设施)工具包RPC 框架等
HDFSHadoop Distributed File System: 分布式的文件系统(海量数据的存储)
MapReduce: 分布式的计算框架(海量数据离线运算)
YarnYet Another Resources Negotiato: 分布式资源调度系统(2.x后才有)
2.3 Hadoop的发行版本
apache hadoop: 2008年,初学者入门,简单易入手
cloudera hadoop: 2009年,企业中使用 CDH性能强
hortonworks hadoop: 2011年,文档全面
2.4 Hadoop的相关组件
1Hive基于大数据技术的SQL数据仓库工具可以将结构化的数据文件映射为一张数据库 表并提供简单的sql查询功能可以将sql语句转换为MapReduce任务进行运行。
2HBase基于 Hadoop 的列式分布式 NoSQL 数据库
3Zookeeper分布式协调服务基础组件
4Sqoop数据导入导出工具
5Ambari创建、管理、监视 Hadoop 的集群是为了让 Hadoop 以及相关的大数据软件更容易使用的一个web工具。
6Flume日志数据采集框架
7Oozie/Azkaban工作流调度引擎
8Mahout基于 MapReduce/Flink/Spark 等分布式运算框架的机器学习算法库
2.5 分布式和集群的区别
分布式不同的业务模块部署在不同的服务器上或者同一个业务模块分拆多个子业务部署在不同的服务器上解决高并发的问题。
集群同一个业务部署在多台机器上提高系统可用性
分布式的主要工作是分解任务将职能拆解集群主要的使用场景是为了分担请求的压力也就是在几个服务器上部署相同的应用程序来分担客户端请求主要是简单加机器解决问题对于问题本身不做任何分解。
分布式处理里必然包含任务分解与结果归并。分布式中的某个子任务节点可能由一个集群来代替集群中任一节点都是做一个完整的任务。集群和分布式都是由多个节点组成但是集群之间的通信协调基本不需要而分布式各个节点的通信协调必不可少。
将一套系统拆分成不同子系统部署在不同服务器上分布式然后部署多个相同的子系统在不同的服务器上集群部署在不同服务器上的同一个子系统应做负载均衡。
3 Hadoop完全分布式集群搭建
3.1 准备工作
1准备多个节点比如3台
2修改ip地址,静态ip地址
3修改主机名称和主机映射
4系统启动级别
5防火墙和selinux关闭selinux:linux的安全管理策略文件位置/etc/selinux/config
6同步时间ntpdate ntp1.aliyun.com
7jdk安装
8ssh免密登录
3.2 完全分布式集群搭建
1下载hadoop软件包http://hadoop.apache.org/或http://archive/apache.org/dist/
2上传到服务器put -r hadoop.tar.gz
3解压
4进程规划例子如下
bigdata01bigdata02bigdata03Namenode DataNodeDataNodeDataNode SecondaryNameNode ResourceManager NodeManagerNodeManagerNodeManager
5配置
①hadoop-env.sh #配置整个hadoop的环境,hadoop进程是jvm进程,配置jdk的环境变量 export JAVA_HOMEjdk的安装目录
②core-site.xml 默认的文件系统默认file:///本地文件系统 hdfs://ip:port hdfs集群的入口地址namenode客户端的请求和响应 这个配置说明①使用分布式的文件系统 ②namenode所在的节点为bigdata ③hdfs集群的访问路径: hdfs://hdp01:9000 property namefs.defaultFs/name valuehdfs://bigdata01:9000/value /property 临时文件的存储目录 property namehadoop.tmp.dir/name value/home/refuel/opt/module/hadoop-2.7.7/data/value /property
③hdfs-site.xml dfs.replication副本数默认3个 dfs.blocksize每个块的大小1.x默认64M 2.x默认128M namenode的元数据存储的目录 property namedfs.namenode.name.dir/name value/home/refuel/opt/module/hadoop-2.7.7/data/name/value /property datanode的lock信息存储的目录 property namedfs.datanode.data.dir/name value/home/refuel/opt/module/hadoop-2.7.7/data/data/value /property secondarynamenode的节点配置 property namedfs.secondary.http.address/name valuebigdata03:50090/value /property
④mapred.site.xml
将mapred-site.xml.template 复制一份并重命名为mapred-site.xml mapreduce的作业运行平台 property namemapreduce.framework.name/name valueyarn/value /property
⑤yarn-site.xml 配置Resourcemanager的主机名 property nameyarn.resourcemanager.hostname/name valuebigdata02/value /property NodeManager上运行的附属服务。需配置成mapreduce_shuffle才可运行MapReduce程序 property nameyarn.nodemanager.aux-services/name valuemapreduce_shuffle/value /property
⑥slaves 从节点的列表 bigdata01 bigdata02 bigdata03
⑦环境变量 1/etc/profile 或 2当前用户: ~/.bashrc ~/.bash_profile export HADOOP_HOME/home/hadoop/hadoop-2.7.7 export PATH$PATH:$HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin source .bash_profile
⑧发送到其他节点
⑨hdfs集群(namenode)格式化
hdfs namenode -format (除第一次格式化外其他次格式化需要将logs文件及相关的data文件删除)
⑩启动集群
1.逐个进程启动 hadoop-daemon.sh start/stop namenode/datanode/secondarynamenode yarn-daemon.sh start/stop ResourceManager/NodeManager 2.整个集群启动(涉及到通信,ssh免密登录) start-dfs.sh/stop-dfs.sh start-yarn.sh(必须在rm节点启动)/stop-yarn.sh 3.全部启动 start-all.sh/stop-all.sh