上海做网站定制,做器材的网站,雅安市建设网站,手机优化大师官网RDD是分布式弹性数据集。
RDD有五大特性#xff1a;
一组分区#xff0c;每个RDD都会被分为多个分区#xff0c;这些分区运行在集群的不同节点上#xff0c;分区数决定并行计算的数量。一个计算每个分区的函数#xff0c;就是计算逻辑。RDD之间的依赖关系#xff0c;就…RDD是分布式弹性数据集。
RDD有五大特性
一组分区每个RDD都会被分为多个分区这些分区运行在集群的不同节点上分区数决定并行计算的数量。一个计算每个分区的函数就是计算逻辑。RDD之间的依赖关系就是血缘关系。一个分区器即RDD的分片函数控制分区的数据流向只有key-value类型的算子才有分区器。一个列表存储存取每个分区的优先位置移动数据不如移动计算除非资源不够。
RDD的弹性主要体现在计算弹性存储弹性任务弹性数据位置弹性
计算弹性和任务弹性当Task和State失败了可以基于spark的血缘关系进行重试而且只需要计算失败的部分。存储弹性自动进行内存和磁盘切换当内存不够了自动存储到磁盘。数据位置弹性数据既可以存储在内存中也可以存储在磁盘中比如Checkpoint保存在HDFS中可以对数据进行复用。
数据位置弹性