当前位置: 首页 > news >正文

台州做网站电话公众号代运营平台

台州做网站电话,公众号代运营平台,牡丹江信息网手机版招聘,微信小程序开发流程文档一、RDD Spark RDD#xff08;弹性分布式数据集#xff09;#xff0c;弹性是指Spark可以通过重新计算来自动重建丢失的分区。 从本质上讲#xff0c;RDD 是数据元素的不可变分布式集合#xff0c;跨集群中的节点进行分区#xff0c;可以与提供转换和操作的低级 API 并行…一、RDD Spark RDD弹性分布式数据集弹性是指Spark可以通过重新计算来自动重建丢失的分区。 从本质上讲RDD 是数据元素的不可变分布式集合跨集群中的节点进行分区可以与提供转换和操作的低级 API 并行操作。 Spark RDD 相关操作官方文档 1. 为什么 Spark 中需要 RDD RDD 解决了 MapReduce 在数据共享方面的缺点。当重用数据进行计算时MapReduce 需要写入外部存储HDFS、Cassandra、HBase 等。作业之间的读写过程会消耗大量内存。 此外由于复制、序列化和磁盘使用量的增加任务之间的数据共享速度很慢。 RDD 旨在通过利用内存计算操作存储来减少外部存储系统的使用。这种方法将任务之间的数据交换速度提高了 10 到 100 倍。 处理大量数据时速度至关重要。Spark RDD 使训练机器学习算法和处理大量数据进行分析变得更加容易。 2. Spark RDD 操作 RDD 提供两种操作类型 1.转换是对 RDD 进行的操作从而创建 RDD。RDD的transformation操作是延迟计算的只在遇到action时才真正进行计算。 2.action是不会导致 RDD 创建并提供一些其他值的操作。 2、RDD 持久化 Spark 中一个很重要的能力是将数据持久化或称为缓存在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时每个节点的其它分区都可以使用 RDD 在内存中进行计算在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快通常运行速度会加速 10 倍。缓存是迭代算法和快速的交互式使用的重要工具。 RDD 可以使用 persist() 方法或 cache() 方法进行持久化。数据将会在第一次 action 操作时进行计算并缓存在节点的内存中。Spark 的缓存具有容错机制如果一个缓存的 RDD 的某个分区丢失了Spark 将按照原来的计算过程自动重新计算并进行缓存。 在 shuffle 操作中例如 reduceByKey即便是用户没有调用 persist 方法Spark 也会自动缓存部分中间数据。这么做的目的是在 shuffle 的过程中某个节点运行失败时不需要重新计算所有的输入数据。如果用户想多次使用某个 RDD强烈推荐在该 RDD 上调用 persist 方法。 3、RDD的cache和persist的区别 cache()调用的persist()是使用默认存储级别的快捷设置方法 看一下源码 /*** Persist this RDD with the default storage level (MEMORY_ONLY).*/ def cache(): this.type persist()/*** Persist this RDD with the default storage level (MEMORY_ONLY). */ def persist(): this.type persist(StorageLevel.MEMORY_ONLY)通过源码可以看出cache()是persist()的简化方式调用persist的无参版本也就是调用persist(StorageLevel.MEMORY_ONLY)cache只有一个默认的缓存级别MEMORY_ONLY即将数据持久化到内存中而persist可以通过传递一个 StorageLevel 对象来设置缓存的存储级别。 二、执行器和集群管理器 本地模式 使用本地模式有一个executor和driver运行在同一个JVM中该模式一般是测试或小规模作业。这种模式主URL为local一个线程、local[n]n个线程、local[*](每个内核一个线程 standalone模式 运行了一个master和多个workder。当spark应用启动时master要求worker代表应用启动多个executor线程。 YARN模式 YARN是Hadoop中的资源管理器。该模式优于独立模式集群管理器因为考虑了在集群上运行的其他应用MapReduce作业的资源需求并统筹实施调度策略。独立模式对集群资源采取静态分配方法不能随时适应其他应用变化需求。 三、运行在YARN上的Spark 为了在YARN上运行Spark提供了两种部署模式YARN客户端模式和YARN集群模式。YARN客户端模式的driver在客户端运行YARN集群模式的driver在YARN的application master集群上运行。 对于spark-shell必须使用YARN客户端模式使用该模式任何调试输出都是立即可见的。 另一方面YARN集群模式适用生成作业因为整个应用在集群上运行。如果application master出现故障YARN可以尝试重新运行该应用。 在Spark on Yarn上Driver会和AppMaster通信资源的申请由AppMaster来完成而任务的调度和执行则由Driver完成Driver会通过与AppMaster通信来让Executor的执行具体的任务。 1. YARN客户端模式 在YARN客户端模式下当driver构建新的SparkContext实例便启动了与Yarn的交互。该context向ResourceManager提交一个Yarn应用ResourceManager启动NodeManager上的Yarn容器运行一个application master。 ExecutorLauncher向ResourceManager申请资源来启动Yarn容器的executor。每个executor在启动时都会连接回sc并注册自身。 2. YARN集群模式 对于YARN客户端模式和YARN集群模式的唯一区别在于YARN客户端模式的Driver运行在本地而AppMaster运行在YARN一个节点上他们之间进行远程通信AppMaster只负责资源申请和释放(当然还有DelegationToken的刷新)然后等待Driver的完成。 而YARN集群模式的Driver则运行在AppMaster所在的container里Driver和AppMaster是同一个进程的两个不同线程它们之间也会进行通信AppMaster同样等待Driver的完成从而释放资源。 参考链接 从源码角度看Spark on yarn client cluster模式的本质区别Hadoop权威指南
http://www.pierceye.com/news/582237/

相关文章:

  • 沈阳自助建站模板网站建设想法
  • 湖南岳阳网站建设公司黄页顺企网怎样不让网站被收录
  • 有没有专门做翻译的网站安徽建设工程信息网招标公告
  • 保险咨询网站留电话中国十大网络公司排行榜
  • 领手工在家做的网站2019网页设计与实现论文
  • 兰州微信信息平台网站建设绍兴本地网站建设
  • 关于旅游网站策划书千锋前端培训多少钱
  • 温州网站建设结构做代练网站能备案
  • 零基础学习做网站第三方装修评估公司
  • 基础微网站开发动态网站彩票投注员做啥的
  • 西安做网站设计公司爱做网站免费版
  • 效果图网站接单重庆一般建一个网站需要多少钱
  • 网站建设征求意见稿辅料企业网站建设费用
  • 上海网站建设公司服务沅江网站制作
  • 公司网站开发费用计入什么科目虚拟主机怎么建网站
  • 天津网站建设技术网页设计与制作教程版徐洪亮课后答案
  • 旅游网站建设方案简介用asp做的网站打开页面很慢
  • 做影视网站 片源从哪里来做自媒体的上那些网站
  • 邢台网站开发百度云 做网站
  • 淘宝优惠劵网站建设wordpress主题 简洁
  • 自己做电影资源网站揭阳新闻最新消息
  • 北碚免费建站哪家做得好佛山网站建设设计
  • 怎么做网站拍卖的那种wordpress主题搜索图标
  • 三亚网站建设平台查数据的权威网站
  • html网站制作答辩ppt网站备份和备案的区别
  • 网站开发需要工具免费的ps软件
  • 常州网站建设优质商家重庆互联网怎么样
  • 做网站发广告动漫网页设计报告
  • 求职招聘网站建设投标书沈阳网站建设的公司哪家好
  • 做导航网站有发展吗南京企业网站制作哪家好