当前位置：首页 > news >正文

网站跳出率因素中文域名注册官网入口

news 2025/12/20 21:02:57

网站跳出率因素,中文域名注册官网入口,网站开发目前用的是什么语言,discuz主题引言随着企业数据化和Hadoop的应用越加广泛#xff0c;hadoop1.x的框架设计越来越无法满足人们对需求#xff0c;Apache一直在对Hadoop1.x进行修改#xff0c;最后推出了新一代的Hadoop2.x。从业界使用分布式系统的变化趋势和 hadoop 框架的长远发展来看#xff0c;MapRed… 引言随着企业数据化和Hadoop的应用越加广泛hadoop1.x的框架设计越来越无法满足人们对需求Apache一直在对Hadoop1.x进行修改最后推出了新一代的Hadoop2.x。从业界使用分布式系统的变化趋势和 hadoop 框架的长远发展来看MapReduce 的 JobTracker/TaskTracker 机制需要大规模的调整来修复它在可扩展性内存消耗线程模型可靠性和性能上的缺陷。为从根本上解决旧 MapReduce 框架的性能瓶颈促进 Hadoop 框架的更长远发展从 0.23.0 版本开始Hadoop 的 MapReduce 框架完全重构发生了根本的变化。新的 Hadoop MapReduce 框架命名为 MapReduceV2 或者叫 Yarn。一 hadoop1.0版本与2.0版本的差异 1.1 HDFS之间的差异 1.1.1 Hadoop1.x 在Hadoop1.x中HDFS的采用Masters/Slaves的方式设计集群通过NameNode和DataNode的方式管理集群。在整个Hadoop1.x HDFS中分为Namespace和BlockStorageServer两个部分。其中Namespace完全分布在NameNode节点中Namespace其中包括了所有文件的元数据、images镜像和edits文件等。而BlockStorageServer分布则是分布在NameNode节点和Datanode节点上的在NamNodee节点中存放了所有的Block与DataNode节点之间的对应关系。而在Block的内容数据则是在DataNode节点中分布式存放着。如图1Hadoop1.x版本HDFS示意图所示。图1 Hadoop1.x版本HDFS示意图弊端 1因为NameNode节点是整个集群的中心一旦NameNode发生宕机将会导致整个集群的瘫痪直到NameNode被重启以后问题才被解决。 2NameNode节点的个数只有一个单机的性能是有限的并且NameNode中存放着有关DataNode节点的信息因此在理论上无法实现横向无限性增加DataNode节点这也就是为什么有NameNode最多支持4000个节点的由来。 1.1.2 Hadoop 2.x Hadoop2.x实现联邦HDFS即多个NameNode节点并存并且每一个NameNode节点管理一个Namespace如图2Hadoop2.x的HDFS示意图所示。图2 Hadoop2.x的HDFS示意图 Block Poolblock池一个NameNode管理的所有的block节点一个NameNode节点和去的Pool为一个管理单元来管理自己的Block。在联邦HDFS中每个Namespace都有自己的Block管理但这些Block全部存放在整个DataNode集群中如上图所示Namespace之间是相互隔离的即使一个NameNode节点宕机也不会影响到其他NameSpace同时也不会影响到其管理的Datanodes中的Block。优势 1可以做到自由的横向无限制扩充DataNode节点。 2可以实现多个NameNode并发执行任务提高HDFS系统的吞吐量 3安全性得到很大的提示单个NameNode节点的崩溃不会导致整个系统的瘫痪。 1.2 MapReduce之间的区别 1.2.1 Hadoop1.x Hadoop1.x运行MapReduce任务的流程为 1Job Client提交任务给JobTrackerNameNode节点中JobTracker向各个节点发出询问请求查看每个DataNode节点中执行的Task任务的个数 2JobTrack收集DataNodes的信息并对Job进行资源分配。 3将MapReduce任务所需的资源、信息等全部复制到Datanodes节点中。 4DataNode节点接受任务后将本地的Block读取并形成相应的Map和Reduce任务这些任务的管理全部由DataNodes节点中的TaskTracker进行监督。如图3MapReduce示意图所示。图3 MapReduce示意图从图中可知JobTacker是整个Hadoop1.x MapReduce框架的中心其承担的任务有接受任务、计算资源、分配资源、与DataNode进行交流等功能。Hadoop1.x 框架在发布时收到很大的欢迎但是随着需求越来越大Hadoop1.x 的MapReduceMapReduce v1已经不能够胜任现在的需求主要表现在以下几个问题 1JobTracker是整个MapReduce v1的核心存在单点故障。 2JobTracker管理整个MapReduce作业的任务造成资源消耗当map/reduce task过多的时候JobTracker将会耗费大量内存同时也增加Job Tracker fail的风险。 3JobTracker对DataNode进行资源询问使用的Task的个数为考虑内存和CPU的使用率等如果将两个大内存的Map/reduce Task放在一个节点上执行可能会出现内存溢出。 4代码层中的类有些超过3000行导致整个类的任务不够明确并且进行修改是任务量也巨大因此增加了维护、开发人员进行修改的难度。 1.2.2 Hadoop2.x 为了应对越来越大的需求已经MapReduce v1的弊端Apache对MapReduce v2进行了重新设计出现了MapReduce v2也就是YARN框架。下面介绍一下YARN框架。如图4YARN示意图所示。图4 YARN示意图名词解释 ResourceManager以下简称RM。YARN的中控模块负责统一规划资源的使用。 NodeManager:以下简称NM。YARN的资源结点模块负责启动管理container。 ApplicationMaster:以下简称AM。YARN中每个应用都会启动一个AM负责向RM申请资源请求NM启动container并告诉container做什么事情。 Container资源容器。YARN中所有的应用都是在container之上运行的。AM也是在container上运行的不过AM的container是RM申请的。 1ResourceManager在MapReduce v1中JobTracker的任务有两个资源管理和任务调度。而在YARN框架中将JobTracker的两个核心任务进行分离其中的资源管理形成新的ResourceManager。ResourceManager负责管理每个NodeManager节点所提供的资源状态内存、CPU、磁盘和带宽等传统信息。在MapReduce任务的时候RM会精确计算每个整个集群的资源情况已分配给该任务合适的资源。 2Container对一个节点的内存、CPU等资源的描述的整体描述。 3ApplicationMaster每一个MapReduce任务都对应着一个AMAM负责向ResourceManager索要执行任务所需要的资源容器根据进程的状态、管理进行和处理进程失败的原因。 4NodeManager是一个机器框架的代理是任务执行的容器其管理着节点的诸多信息例如内存、CPU、硬盘、网络等资源。 YARN相对于MapReduce v1的优势 1JobTracker所承担的庞大负担被分割分成了resourceManager和nodemanager。资源管理和任务调度分配在不同的节点并且实现程序的分布化、最优化。 2ResourceManager资源分配不再凭借slot的个数而是根据节点的内存是分配任务使得负载均衡更在完善。 3ResourceManager节点上有一个ApplicationMasters进程负责管理每个ApplicationMatser进程的状态从而实现监督任务。 1.3 其它差异 MapReduce变成了和HBase和Hive等一样的YARN上面的一个应用Hadoop1.x的默认块大小为64MHadoop2.x的默认块大小为128M在2.x中除了datanode要向namenode报告statusnodemanager也要向ResourceManager报告status。二、 Hadoop1.x升级Hadoop2.x实现版本情况老版本Hadoop1.0.3新版本Hadoop2.6.4。 HOST信息升级所需下载安装包 hadoop-2.6.4.tar.gz http://apache.opencas.org/hadoop/common/hadoop-2.6.4/hadoop-2.6.4.tar.gz jdk-8u77-linux-x64.tar.gz官网下载包的放置路径/usr/local/src/ 创建新的HDFS系统目录和测试文件 [rootnamenode ~]# hadoop fs -mkdir /test [rootnamenode ~]# hadoop fs -put /home/hadoop/hadoop/conf/* /test/ 解压jdk安装包每个节点都要操作 [rootnamenode ~]# cd /usr/local/src [rootnamenode ~]#tar zxvf jdk-8u77-linux-x64.tar.gz 备份旧的jdk每个节点都要操作 [rootnamenode ~]#mv /usr/local/jdk1.6 /usr/local/jdk1.6.bak 替换新的jdk版本每个节点都要操作 [rootnamenode ~]#mv jdk1.8.0_77 /usr/local/jdk/ 修改jdk环境每个节点都要操作 [rootnamenode ~]#vim /etc/profile 更改JAVA_HOME export JAVA_HOME/usr/local/jdk export CLASSPATH.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export PATH$PATH:$JAVA_HOME/bin [rootnamenode ~]#source /etc/profile 验证jdk是否成功 [rootnamenode ~]#java –version 2.2 namenode节点操作解压hadoop2.6的包 [rootnamenode ~]#tar zxvf hadoop-2.6.4.tar.gz 备份hadoop1.0每个节点都操作 [rootnamenode ~]#mkdir /home/hadoop/backup [rootnamenode~]#mv /home/hadoop/hadoop /home/hadoop/backup/ 备份好集群namenode的元数据${HADOOP_HOME}/conf/hdfs-site.xml中的dfs.name.dir所配置的文件夹 [rootnamenode ~]#cp –r /data/work/hdfs/name /data/backup/hdfsname.20160418.bak 安装hadoop2.6 [rootnamenode ~]#mv /usr/local/src/hadoop-2.6.4 /home/hadoop/hadoop [rootnamenode ~]#chown -R hadoop.hadoop /home/hadoop/hadoop 切换到hadoop用户 [rootnamenode ~]#su – hadoop 修改用户环境每个节点都操作 [hadoopnamenode ~]$vim /home/hadoop/.bash_profile 修改 export HADOOP_HOME/home/hadoop/hadoop export PATH$PATH:$HADOOP_HOME:$HADOOP_HOME/bin:$HADOOP_HOME/sbin export HADOOP_HOME_WARN_SUPPRESS1 export PATH [hadoopnamenode ~]$source /home/hadoop/.bash_profile p8 2.3 修改配置文件 [hadoopnamenode ~]$cd /home/hadoop/hadoop/etc/hadoop/ [hadoophadoop/ ~]$vim hadoop-env.sh 修改export JAVA_HOME/usr/local/jdk 增加export HADOOP_PREFIX/home/hadoop/hadoop export HADOOP_HEAPSIZE15000 [hadoophadoop/ ~]$vim yarn-env.sh 修改export JAVA_HOME/usr/local/jdk [hadoophadoop/ ~]$vim mapred-env.sh 修改export JAVA_HOME/usr/local/jdk [hadoophadoop/ ~]$vim hdfs-site.xml ?xml version1.0 encodingUTF-8? ?xml-stylesheet typetext/xsl hrefconfiguration.xsl? configuration property namedfs.namenode.http-address/name valuenamenode:50070/value description NameNode 通过当前参数获得 fsimage 和 edits /description /property property namedfs.namenode.secondary.http-address/name valuenode2:50090/value description SecondNameNode 通过当前参数获得最新的 fsimage /description /property property namedfs.replication/name value2/value description 设定 HDFS 存储文件的副本个数默认为3 /description /property property namedfs.namenode.checkpoint.dir/name valuefile:///home/hadoop/hadoop2.2/hdfs/namesecondary/value description 设置 secondary 存放临时镜像的本地文件系统路径如果这是一个用逗号分隔的文件列表则镜像将会冗余复制到所有目录只对 secondary 有效 /description /property property namedfs.webhdfs.enabled/name valuetrue/value /property property namedfs.namenode.name.dir/name valuefile:///data/work/hdfs/name//value description namenode 用来持续存放命名空间和交换日志的本地文件系统路径 /description /property property namedfs.datanode.data.dir/name valuefile:///data/work/hdfs/value description DataNode 在本地存放块文件的目录列表用逗号分隔 /description /property property namedfs.stream-buffer-size/name value131072/value description 默认是4KB作为hadoop缓冲区用于hadoop读hdfs的文件和写 hdfs的文件还有map的输出都用到了这个缓冲区容量对于现在的硬件很保守可以设置为128k (131072),甚至是1M(太大了map和reduce任务可能会内存溢出) /description /property property namedfs.namenode.checkpoint.period/name value3600/value description 两次 checkpoints 之间的间隔单位为秒只对 secondary 有效 /description /property /configuration [hadoophadoop/ ~]$vim mapred-site.xml ?xml version1.0? ?xml-stylesheet typetext/xsl hrefconfiguration.xsl? configuration property namemapreduce.framework.name/name valueyarn/value /property /configuration [hadoophadoop/ ~]$vim yarn-site.xml ?xml version1.0? configuration property nameyarn.nodemanager.aux-services/name valuemapreduce_shuffle/value /property /configuration [hadoophadoop/ ~]$vim core-site.xml ?xml version1.0 encodingUTF-8? ?xml-stylesheet typetext/xsl hrefconfiguration.xsl? configuration property namefs.defaultFS/name valuehdfs://namenode:9000//value description 设定 namenode 的主机名及端口 /description /property property namehadoop.tmp.dir/name value/home/hadoop/tmp/value description 存放临时文件的目录 /description /property /configuration 新建文件目录所有节点操作 $mkdir /home/hadoop/tmp $mkdir /data/work/hdfs/namesecondary/ $chown -R hadoop.hadoop /home/hadoop/tmp/ $ chown -R hadoop.hadoop /data/work/hdfs/namesecondary/ 启动hdfs [hadoopnamenode ~]$tart-dfs.sh [hadoopnamenode ~]$hadoop-daemon.sh start namenode -upgrade 重新启动所有守护线程 [hadoopnamenode ~]$stop-dfs.sh [hadoopnamenode ~]$start-all.sh 查看元数据是否成功保留 [hadoopnamenode ~]$hadoop fs -ls / 成功之后停掉所有守护进程 [hadoopnamenode ~]$stop-all.sh 修改/home/hadoop/hadoop/etc/hadoop/slaves [hadoopnamenode ~]$vim slaves 修改 node1 node2 将hadoop文件拷贝给其它节点 [hadoopnamenode ~]$scp -r /home/hadoop/hadoop node2:/home/hadoop/hadoop/ [hadoopnamenode ~]$scp -r /home/hadoop/hadoop node1:/home/hadoop/hadoop/ Node1,2节点修改hadoop的目录权限 $chown -R hadoop.hadoop /home/hadoop/hadoop namenode启动守护线程 [hadoopnamenode ~]$start-all.sh namenode和datanode的dfs.namenode.name.dir目录下本次实验中为/data/work/hdfs/name会多出一个文件夹previous/或者通过jps查看信息文件夹previous/这是升级之前数据的备份如果回滚也是需要有这个文件夹。本文转自YU文武貝 51CTO博客原文链接http://blog.51cto.com/linuxerxy/1766131如需转载请自行联系原作者

查看全文

http://www.pierceye.com/news/475426/