东莞网站建设报价,推广平台赚佣金,免费在线咨询软件,wordpress数据库和网站文件下载本文主要是讲解Spark在Windows环境是如何搭建的
一、JDK的安装
1、1 下载JDK 首先需要安装JDK#xff0c;并且将环境变量配置好#xff0c;如果已经安装了的老司机可以忽略。JDK#xff08;全称是JavaTM Platform Standard Edition Development Kit#xff09;的安装并且将环境变量配置好如果已经安装了的老司机可以忽略。JDK全称是JavaTM Platform Standard Edition Development Kit的安装去Oracle官网下载下载地址是Java SE Downloads 。 上图中两个用红色标记的地方都是可以点击的点击进去之后可以看到这个最新版本的一些更为详细的信息如下图所示 下载完之后我们安装就可以直接JDKJDK在windows下的安装非常简单按照正常的软件安装思路去双击下载得到的exe文件然后设定你自己的安装目录这个安装目录在设置环境变量的时候需要用到即可。
1、2 JDK环境变量设置 接下来设置相应的环境变量设置方法为在桌面右击【计算机】【属性】【高级系统设置】然后在系统属性里选择【高级】【环境变量】然后在系统变量中找到“Path”变量并选择“编辑”按钮后出来一个对话框可以在里面添加上一步中所安装的JDK目录下的bin文件夹路径名我这里的bin文件夹路径名是C:\Program Files\Java\jre1.8.0_92\bin所以将这个添加到path路径名下注意用英文的分号“;”进行分割。如图所示 这样设置好后便可以在任意目录下打开的cmd命令行窗口下运行下面命令。查看是否设置成功。
java -version 观察是否能够输出相关java的版本信息如果能够输出说明JDK安装这一步便全部结束了。如图所示 二、Scala的安装 我们从官网http://www.scala-lang.org/ 下载Scala最新的版本为2.12.3如图所示 因为我们是在Windows环境下这也是本文的目的我们选择对应的Windows版本下载如图所示 下载得到Scala的msi文件后可以双击执行安装。安装成功后默认会将Scala的bin目录添加到PATH系统变量中去如果没有和上面JDK安装步骤中类似将Scala安装目录下的bin目录路径添加到系统变量PATH中为了验证是否安装成功开启一个新的cmd窗口输入scala然后回车如果能够正常进入到Scala的交互命令环境则表明安装成功。如下图所示 备注如果不能显示版本信息并且未能进入Scala的交互命令行通常有两种可能性 1、Path系统变量中未能正确添加Scala安装目录下的bin文件夹路径名按照JDK安装中介绍的方法添加即可。 2、Scala未能够正确安装重复上面的步骤即可。
三、Spark的安装
我们到Spark官网进行下载http://spark.apache.org/ 我们选择带有Hadoop版本的Spark如图所示 下载后得到了大约200M的文件 spark-2.2.0-bin-hadoop2.7 这里使用的是Pre-built的版本意思就是已经编译了好了下载来直接用就好Spark也有源码可以下载但是得自己去手动编译之后才能使用。下载完成后将文件进行解压可能需要解压两次最好解压到一个盘的根目录下并重命名为Spark简单不易出错。并且需要注意的是在Spark的文件目录路径名中不要出现空格类似于“Program Files”这样的文件夹名是不被允许的。我们在C盘新建一个Spark文件夹存放如图所示 解压后基本上就差不多可以到cmd命令行下运行了。但这个时候每次运行spark-shellspark的命令行交互窗口的时候都需要先cd到Spark的安装目录下比较麻烦因此可以将Spark的bin目录添加到系统变量PATH中。例如我这里的Spark的bin目录路径为D:\Spark\bin那么就把这个路径名添加到系统变量的PATH中即可方法和JDK安装过程中的环境变量设置一致设置完系统变量后在任意目录下的cmd命令行中直接执行spark-shell命令即可开启Spark的交互式命令行模式。 系统变量设置后就可以在任意当前目录下的cmd中运行spark-shell但这个时候很有可能会碰到各种错误这里主要是因为Spark是基于hadoop的所以这里也有必要配置一个Hadoop的运行环境。错误如图所示 接下来我们还需要安装Hadoop。
四、Hadoop的安装 在Hadoop Releases里可以看到Hadoop的各个历史版本这里由于下载的Spark是基于Hadoop 2.7的在Spark安装的第一个步骤中我们选择的是Pre-built for Hadoop 2.7我这里选择2.7.1版本选择好相应版本并点击后进入详细的下载页面如下图所示 选择图中红色标记进行下载这里上面的src版本就是源码需要对Hadoop进行更改或者想自己进行编译的可以下载对应src文件我这里下载的就是已经编译好的版本即图中的“hadoop-2.7.1.tar.gz”文件。
下载并解压到指定目录我这里是C:\Hadoop如图所示 然后到环境变量部分设置HADOOP_HOME为Hadoop的解压目录如图所示 然后再设置该目录下的bin目录到系统变量的PATH下我这里也就是C:\Hadoop\bin如果已经添加了HADOOP_HOME系统变量也可用%HADOOP_HOME%\bin来指定bin文件夹路径名。这两个系统变量设置好后开启一个新的cmd窗口然后直接输入spark-shell命令。如图所示 正常情况下是可以运行成功并进入到Spark的命令行环境下的但是对于有些用户可能会遇到空指针的错误。这个时候主要是因为Hadoop的bin目录下没有winutils.exe文件的原因造成的。这里的解决办法是 可以去 https://github.com/steveloughran/winutils 选择你安装的Hadoop版本号然后进入到bin目录下找到winutils.exe文件下载方法是点击winutils.exe文件进入之后在页面的右上方部分有一个Download按钮点击下载即可。 如图所示 下载winutils.exe文件 将下载好winutils.exe后将这个文件放入到Hadoop的bin目录下我这里是C:\Hadoop\hadoop-2.7.1\bin。 在打开的cmd中输入
C:\Hadoop\hadoop-2.7.1\bin\winutils.exe chmod 777 /tmp/Hive //修改权限777是获取所有权限
但是我们发现报了一些其他的错(Linux环境下也是会出现这个错误)
1 console:14: error: not found: value spark
2 import spark.implicits._
3 ^
4 console:14: error: not found: value spark
5 import spark.sql
其原因是没有权限在spark中写入metastore_db 这个文件。
处理方法我们授予777的权限
Linux环境我们在root下操作
1 sudo chmod 777 /home/hadoop/spark
2
3 #为了方便可以给所有的权限
4 sudo chmod aw /home/hadoop/spark
window环境下
存放Spark的文件夹不能设为只读和隐藏如图所示 授予完全控制的权限如图所示 经过这几个步骤之后然后再次开启一个新的cmd窗口如果正常的话应该就可以通过直接输入spark-shell来运行Spark了。正常的运行界面应该如下图所示 六、Python下Spark开发环境搭建 下面简单讲解Python下怎么搭建Spark环境
1、将spark目录下的pyspark文件夹C:\Spark\python\pyspark复制到python安装目录C:\Python\Python35\Lib\site-packages里。如图所示
spark的pysaprk 将pyspark拷贝至Python的安装的packages目录下。 2、然后使用cd命令进入目录D:\python27\Scripts运行pip install py4j安装py4j库。如图所示 如果需要在python中或者在类似于IDEA IntelliJ或者PyCharm(笔者用的就是PyCharm)等IDE中使用PySpark的话需要在系统变量中新建一个PYTHONPATH的系统变量然后设置好下面变量值就可以了
PATHONPATH%SPARK_HOME%\python;%SPARK_HOME%\python\lib\py4j-0.10.4-src.zip 后面的事情就交给PyCharm了。
至此Spark在Windows环境下的搭建讲解已结束。