网站建设中html页面,建设工程合同印花税税率,淘宝关键词排名是怎么做的,怎么在小程序里开店铺一、hadoop的概念
#xff08;1#xff09;什么是大数据 大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具#xff0c;而是涉及的业务和技术的许多领域。 #xff08;2#xff09;hadoop的定义 Hadoop是一个由Apache基金会所开发的分布式…一、hadoop的概念
1什么是大数据 大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具而是涉及的业务和技术的许多领域。 2hadoop的定义 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop的框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储则MapReduce为海量的数据提供了计算。 二、前置条件
vmvare10ubuntu14
1Linux apt sources 使用aliyun镜像
sudo su
gedit /etc/apt/sources.list 注释所有内容
增加 /etc/apt/sources.list.d/00mirrors.aliyun.com.list
# aliyun
deb http://mirrors.aliyun.com/ubuntu/ trusty main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ trusty-security main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ trusty-updates main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ trusty-proposed main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ trusty-backports main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty-security main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty-updates main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty-proposed main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty-backports main restricted universe multiverse
#更新
apt-get update
2Linux 安装 ssh (server 和 client)
sudo su
apt-get install ssh
#登录检验ssh
ssh -l mk localhost
#退出ssh
exit 三、Hadoop单机安装Ubuntu14版
在用户mkjdk和Hadoop安装路径/home/mk/soft/
1、安装配置jdk
A、在线安装 B、离线安装
1)下载jdk-7u80-linux-x64.tar.gz 下载路径:http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html 把离线包拷入到ubuntu的当前用户mk的soft文件夹下,然后执行命令安装。 2)执行命令
mkdir ~/soft
tar -zxvf jdk-7u80-linux-x64.tar.gz
mv jdk1.7.0_80/ soft/jdk1.7.0_80 C、配置JDK环境变量JAVA_HOME
安装完jdk后需要配置环境变量把java变成系统内命令 编辑/etc/profile文件来修改系统环境变量。
1配置环境变量
执行命令后面java.sh不要有空格如‘java.sh ’否则读不了配置文件
sudo gedit /etc/profile.d/java.sh
打开/etc/profile.d/java.sh文件在文件中添加如下配置
export JAVA_HOME/home/mk/soft/jdk1.7.0_80
export CLASSPATH.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH$JAVA_HOME/bin:$PATH
注意写配置值时export语句的内容里面不要换行 2验证配置
1使profile文件修改配置生效 执行命令source /etc/profile 或者注销再登录当前用户 执行命令sudo reboot 2验证java质量 执行命令 :java -version 2、安装hadoop
A、下载解压hadoop安装包
下载hadoop安装包hadoop-2.6.0.tar.gz
下载路径http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz B、拷贝到hadoop用户目录中,执行命令进行安装 执行命令
tar xvf hadoop-2.6.0.tar.gz
mv hadoop-2.6.0 soft/
C、修改hadoop环境变量配置 执行命令后面hadoop.sh不要有空格如‘hadoop.sh ’否则读不了配置文件
sudo gedit /etc/profile.d/hadoop.sh hadoop.sh的内容
export HADOOP_HOME/home/mk/soft/hadoop-2.6.0
export CLASSPATH.:$HADOOP_HOME/share/hadoop/common/hadoop-common-2.6.0.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar:$CLASSPATH
export PATH$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH 注意写配置值时export语句的内容里面不要换行 D、验证配置 1使hadoop命令配置生效 执行命令source /etc/profile 或注销再登录当前用户 2 验证: hadoop version 3、启动Hadoop
A、进入到 /home/mk/soft/hadoop-2.6.0/etc/hadoop目录查看配置文件 执行命令 cd soft/hadoop-2.6.0/etc/hadoop/ 列出配置文件 ls B、编辑/home/mk/soft/hadoop-2.6.0/etc/hadoop/hadoop-env.sh文件修改参数信息
执行命令
cd soft/hadoop-2.6.0/ etc/hadoop
sudo gedit hadoop-env.sh
修改文件里面的export JAVA_HOME${JAVA_HOME}为
export JAVA_HOME/home/mk/soft/jdk1.7.0_80 C、测试Hadoop环境可用性 执行命令 hadoop 三、测试例子
题目使用hadoop自带的hadoop-mapreduce-examples-2.6.0.jar对某目录下的文档进行单词数的统计
执行命令
#切换到用户目录cd /home/mk/#在用户目录下创建input目录mkdir input#复制hadoop的配置文件进入inputcp $HADOOP_HOME/etc/hadoop/*.xml input/#统计input目录里面的以dfs前缀的单词保存结果在output目录hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output dfs[a-z.]#输出output目录的结果cat output/*
结果