58同城网站官网,常州网络推广网站,网站概述怎么写,成都网站快速排名我的电脑是Macbook Pro#xff0c;最近在学习Spark#xff0c;想要在idea里搭建Spark环境#xff0c;为之后的Spark编程作准备。下面是在MAC版本的idea里配置Spark环境。
1. 准备工作
1.安装 JDK
确保Mac 上已经安装了 JDK 8 或更高版本。 可通过 java -version 查看是否…我的电脑是Macbook Pro最近在学习Spark想要在idea里搭建Spark环境为之后的Spark编程作准备。下面是在MAC版本的idea里配置Spark环境。
1. 准备工作
1.安装 JDK
确保Mac 上已经安装了 JDK 8 或更高版本。 可通过 java -version 查看是否安装。
java -version输出以下内容说明安装成功
JDK8的安装步骤可参考教程JDK8安装教程
2.安装 Apache Spark
下载 Spark 二进制包Spark-3.3.1解压缩到目标目录,例如 /opt/spark配置环境变量
export SPARK_HOME/opt/spark
export PATH$SPARK_HOME/bin:$PATH验证 Spark 是否安装成功
spark-shell出现以下界面说明spark安装成功
3.安装 Maven如果未安装
安装命令
brew install maven验证
mvn -v出现以下说明安装成功
2. 配置 IntelliJ IDEA
1.打开IDEA
2.安装 Scala 插件
打开 IDEA - Preferences - Plugins - Marketplace - 搜索 Scala 并安装插件。 3.创建新项目
选择New Project选择Maven Archetype配置JDK选择已安装的JDK8填写项目名称和目录点击FinishGroupId你的组织或项目名称例如 com.example。ArtifactId项目的名称例如 spark-app。Version默认即可例如 1.0-SNAPSHOT。
4.配置 Spark 依赖
1.打开项目中的 pom.xml 文件添加 Spark 相关依赖
dependencies!-- Spark Core --dependencygroupIdorg.apache.spark/groupIdartifactIdspark-core_2.12/artifactIdversion3.4.1/version/dependency!-- Spark SQL --dependencygroupIdorg.apache.spark/groupIdartifactIdspark-sql_2.12/artifactIdversion3.4.1/version/dependency
/dependencies2.点击 IDEA 中的 Maven 面板点击刷新按钮右上角的箭头下载依赖。
4.编写 Spark 程序
1.在 src/main/java 或 src/main/scala 中创建你的程序文件。例如创建一个 WordCountApp.java。 2.编写 Spark 应用程序
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.sql.*;import java.util.Arrays;public class WordCountApp {public static void main(String[] args) {SparkSession spark SparkSession.builder().appName(WordCountApp).master(local[*]) //本地运行模式.getOrCreate();DatasetRow data spark.read().text(input.txt);DatasetRow wordCounts data.flatMap((FlatMapFunctionRow,String)row - Arrays.asList(row.getString(0).split( )).iterator(), Encoders.STRING()).groupBy(value).count();wordCounts.show();spark.stop();}
}input.txt的内容如下
hello world
hello spark
hello world from java
spark is fun and easy to use
apache spark is a fast and general engine for large-scale data processing
data processing with spark is both fast and simple
spark can be used for streaming batch processing machine learning and graph processing
hello apache spark5.运行和调试
1.在 IDEA 中右键点击 WordCountApp 文件选择 Run ‘WordCountApp’。 2.如果运行成功你会看到 Spark 的日志输出以及程序的运行结果。 运行结果如下