当前位置: 首页 > news >正文

怎么开通网站wordpress小工具音乐美化

怎么开通网站,wordpress小工具音乐美化,百度搜索风云榜下载,新型营销方式1. 什么是RDD#xff1f; RDD#xff08;Resilient Distributed Dataset#xff09;叫做弹性分布式数据集#xff0c;是Spark中最基本的数据处理模型。在代码中#xff0c;RDD是一个抽象类#xff0c;他代表着一个弹性的、不可变的、可分区的、里面的元素可并行计算的集…1. 什么是RDD RDDResilient Distributed Dataset叫做弹性分布式数据集是Spark中最基本的数据处理模型。在代码中RDD是一个抽象类他代表着一个弹性的、不可变的、可分区的、里面的元素可并行计算的集合。注意RDD只是封装了计算逻辑并不保存数据。RDD是一个抽象类需要子类去实现。不可变指的是计算逻辑不可变如果想要改变则要产生新的RDD。 2. 五大核心属性 源码中五大属性介绍如下 1分区列表 分区的主要目的是实现并行计算/分布式计算 2分区计算函数 以分区为单位进行计算每个分区的计算函数都是一样的 3RDD之间的依赖关系 一个RDD能够转换成另一个RDD形成一种包装的依赖关系 4分区器 负责如何划分分区分区器是Option属性可能有可能没有 5计算每个分区的首选位置 数据存储的节点和数据计算节点可能不一样判断计算发给哪个节点更好移动数据不如移动计算 3. 执行原理 Spark框架在执行计算时先申请资源然后将数据处理逻辑分解成一个个计算任务然后将计算任务发送到已经分配资源的计算节点上按照指定的计算模型进行计算。以Yarn集群环境为例 其中Yarn只是负责资源调度的而NodeManager中的Driver才是负责任务调度的而NodeManager中的Executor是负责任务执行的。 4. 从集合中创建RDD 通过parallelize和makeRDD方法 val sparkConf new SparkConf.setMaster(local[*]).setAppName(RDD)val sc new SparkContext(sparkConf)val seq Seq[Int](1, 2, 3, 4) // val rdd : RDD[Int] sc.parallelize(seq) val rdd : RDD[Int] sc.makeRDD(seq)rdd.collect().foreach(println)sc.stop() 其中local[*]表示使用当前本机的核数如果不写[*]就用单核。parallelize和makeRDD方法本质是一样的makeRDD方法内部调用了parallelize方法。 makeRDD可以加上第二个参数表示分区数量如果不传会使用默认值scheduler.conf.getInt(spark.default.parallelism, totalCores)即会从sparkConf中获取配置参数如果没配置则使用totalCores即当前环境最大核数。当然这是针对本地模式的源码分析。 另外使用saveAsTextFile保存每个分区的文件。 val sparkConf new SparkConf.setMaster(local[*]).setAppName(RDD)val sc new SparkContext(sparkConf)val seq Seq[Int](1, 2, 3, 4) // val rdd : RDD[Int] sc.parallelize(seq) val rdd : RDD[Int] sc.makeRDD(seq, 2)rdd.saveAsTextFile(output)rdd.collect().foreach(println)sc.stop() 结果如下2个分区 可以设置sparkConf中的分区数量配置参数为5 val sparkConf new SparkConf.setMaster(local[*]).setAppName(RDD) sparkConf.set(spark.default.parallelism, 5)val sc new SparkContext(sparkConf)val seq Seq[Int](1, 2, 3, 4) // val rdd : RDD[Int] sc.parallelize(seq) val rdd : RDD[Int] sc.makeRDD(seq)rdd.saveAsTextFile(output)rdd.collect().foreach(println)sc.stop() 结果如下 分区数据的划分可以参考 036 RDD-集合数据源-分区数据的分配 5. 从文件中创建RDD val sparkConf new SparkConf.setMaster(local[*]).setAppName(RDD)val sc new SparkContext(sparkConf)val seq Seq[Int](1, 2, 3, 4) // val rdd : RDD[Int] sc.parallelize(seq) val rdd : RDD[String] sc.textFile(path)rdd.collect().foreach(println)sc.stop() path可以是文件夹也可以是文件 还可以加上通配符*。另外path可以是分布式文件系统的路径。这里的textFile是以行为单位进行读取数据不考虑数据来自于哪个文件。如果需要考虑数据来源于哪个文件则需要用到wholeTextFiles方法。 val sparkConf new SparkConf.setMaster(local[*]).setAppName(RDD)val sc new SparkContext(sparkConf)val seq Seq[Int](1, 2, 3, 4) // val rdd : RDD[Int] sc.parallelize(seq) val rdd : RDD[String] sc.wholeTextFiles(path)rdd.collect().foreach(println)sc.stop() 读取结果形式类似如下 可以看出是以文件为单位进行读取文件全路径名称和文件内容以逗号隔开。 textFile也可以通过第二个参数指定分区数量如果不传默认为min(scheduler.conf.getInt(spark.default.parallelism, totalCores), 2)但是第二个参数并不完全是最终分区的数量这里只是表示最小分区数实际分区数量可能比这个值要大。实际分区数量怎么计算可以考037 RDD-文件数据源-分区的设定。分区数据的划分可参考038 RDD-文件数据源-分区数据的分配和039 RDD-文件数据源-分区数据的分配-案例分析​​​​​​​
http://www.pierceye.com/news/885358/

相关文章:

  • 学网站建设前景印度做杂质的网站
  • 网站的建设意义盐城网站建设找哪家好
  • 赤峰市网站建设年轻人免费在线看视频
  • 使用word做网站网络广告的特点有哪些?
  • 网站系统参数设置定制网站的制作流程
  • 做家教网站公司品牌vi设计升级
  • 唯品会网站建设建议浙江网站建设价格费用
  • 网站建设购买深圳有做网站的公司有哪些
  • 网站预算表怎么做网站域名续费怎么续费
  • 宁波建设网站公众号关注编辑网站教程
  • 怎样自己做刷赞网站开发软件需要多少成本
  • 为什么网站之有首页被收录广西两学一做网站
  • 制作网站需要的软件怎么向google提交网站
  • 济南网站的建设公司网站建设征求意见表
  • 小学校园网站建设简介打开网站弹出一张图片 怎么做
  • 做外贸没有网站需要注意什么条件做简历模板的网站都有哪些
  • 铜陵保障性住房和城乡建设网站舞钢市城乡建设局网站
  • 企业网站总承包建设模式关键步骤凡科论文送审平台
  • 石家庄学校网站建设在线定制签名
  • 新泰网站制作公司免费下载百度seo
  • 江苏海宏建设工程有限公司网站免费软件是怎么盈利的
  • 建设网站需要申请什么推广网站排名
  • 怎么看出网站是dede做的网页的响应式布局
  • 中国农村建设网站静安广州网站建设
  • 全国 做网站的企业wordpress+编辑模板
  • 网站开发需要的编程软件有哪些海门住房和城乡建设局网站
  • 南宁上林网站建设交换链接是什么
  • 什么网站做简历好api模式网站开发
  • 网站建设与管理专业好吗网络推广seo培训班
  • 常用网站架构辽宁建设工程信息网审计报告