广州模板建站系统,网站搭建wordpress,江苏建设部网站,做网站后的总结从Spark应用的提交到执行完成有很多步骤#xff0c;为了便于理解#xff0c;我们把应用执行的整个过程划分为三个阶段。而我们知道Spark有多种运行模式#xff0c;不同模式下这三个阶段的执行流程也不相同。本文介绍这三个阶段的划分#xff0c;并概要介绍不同模式下各个阶…从Spark应用的提交到执行完成有很多步骤为了便于理解我们把应用执行的整个过程划分为三个阶段。而我们知道Spark有多种运行模式不同模式下这三个阶段的执行流程也不相同。本文介绍这三个阶段的划分并概要介绍不同模式下各个阶段的执行流程各个模式的详细流程会在后面的文章进行分析。应用执行的阶段划分我们知道Spark应用可以在多种模式下运行。所谓多种模式主要是针对资源分配方式来说的Spark应用可以在yarnk8smesos等分布式资源管理平台上运行也可以启动自带的master和worker端来分配和管理资源standalone模式。例如我们可以通过以下命令来向yarn提交一个spark任务$SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client $SPARK_HOME/examples/jars/spark-examples*.jar 代码1-3-1 spark应用提交命令要注意的是在执行以上应用提交命令时yarn资源管理集群必须已经启动。另外Spark应用的执行是通过Driver端和Executor端共同配合完成的。要完成以上应用的执行需要经历很多步骤为了便于更好的理解Spark应用从提交到执行完成的整个过程我们把整个过程划分成三个阶段应用的提交执行环境的准备任务的调度和执行如图1所示图1 应用执行总体流程不管以哪种模式运行Spark应用的执行过程都可以划分成这三个阶段。下面对这三个阶段分别进行说明。三个阶段概要说明这三个阶段以及每个阶段要完成的目标如图2所示。图2 Spark应用执行的3阶段目标概述 图2 Spark应用执行的3阶段目标概述我们根据以下代码为例来讲解Spark应用执行的各个阶段。# 第1阶段应用的提交这个阶段在Driver端完成主要目标是准备依赖包并确定Spark应用的执行主类。具体的任务包括解析任务提交的参数并对参数进行解析和保存。准备可能会下载任务启动参数指定的依赖文件或程序包。根据Spark应用的执行模式和应用的编写语言来确定执行的主类名称。实例化执行主类生成SparkApplication对象并调用SparkApplication#start()函数来运行Spark应用若是Java或scala代码其实是执行Spark应用中的main函数。注意第1阶段完成时Driver端并没有向资源管理平台申请任何资源也没有启动任何Spark内部的服务。第2阶段执行环境的准备通过第1阶段已经找到了运行在Driver端的Spark应用的执行主类并创建了SparkApplication对象app。此时在app.start()函数中会直接调用主类的main函数开始执行应用从而进入第2阶段。第2阶段主要目标是创建SparkSession包括SparkContext和SparkEnv完成资源的申请和Executor的创建。第2阶段完成后Task的执行环境就准备好了。也就是说第2阶段不仅会在Driver端进行初始化而且还要准备好Executor。这一阶段的任务主要是在Driver端执行创建SparkSession的代码来完成也就是执行下面一行代码val 第2阶段的Driver端主要完成以下步骤创建SparkContext和SparkEnv对象在创建这两个对象时向Cluster Manager申请资源启动各个服务模块并对服务模块进行初始化。这些服务模块包括DAG调度服务任务调度服务shuffle服务文件传输服务数据块管理服务内存管理服务等。第2阶段的Executor端主要完成以下步骤 Driver端向Cluster Manager申请资源若是Yarn模式会在NodeManager上创建ApplicationMaster并由ApplicationMaster向Cluster Manager来申请资源并启动Container在Container中启动Executor。 在启动Executor时向Driver端注册BlockManager服务并创建心跳服务RPC环境通过该RPC环境向Driver汇报Executor的状态信息。详细的执行步骤会在后面介绍每种模式的运行原理时详细分析。第2阶段执行完成后的Spark集群状态如下执行环境准备完成后Spark集群的状态第3阶段任务的调度和执行通过第2阶段已经完成了Task执行环境的初始化此时在Driver端已经完成了SparkContext和SparkEnv的创建资源已经申请到了并且已经启动了Executor。这一阶段会执行接下来的数据处理的代码val 第3阶段Driver端主要完成以下步骤执行Spark的处理代码当执行map操作时生成新的RDD当执行Action操作时触发Job的提交此时会执行以下步骤根据RDD的血缘把Job划分成相互依赖的Stage把每个Stage拆分成一个或多个Task把这些Task提交给已经创建好的Executor去执行获取Executor的执行状态信息直到Executor完成所有Task的执行获取执行结果和最终的执行状态。小结本节介绍了Spark应用的执行过程通过本节的学习应该对Spark应用的执行过程有一个总体的理解。接下来会根据具体的运行模式来详细分析每个阶段的执行步骤。