雄安网站建设单位,专业的上海网站建设,如何刷网站流量,网站备案后的标识转换算子
value类型
算子名称作用Map映射a-bflatMap扁平化[[a,b],[c,d]] - [a,b,c,d] #xff0c;二维变一维groupBy分组[1,2,3,4] -[[1,3],[2,4] ]#xff0c;一维变二维filter过滤[1,2,3,4] - [2,4] 符合条件进入#xff0c;不符合去掉distinct去重[1,1…转换算子
value类型
算子名称作用Map映射a-bflatMap扁平化[[a,b],[c,d]] - [a,b,c,d] 二维变一维groupBy分组[1,2,3,4] -[[1,3],[2,4] ]一维变二维filter过滤[1,2,3,4] - [2,4] 符合条件进入不符合去掉distinct去重[1,1,2,2] - [1,2] 去重过程中存在shufflesortBy排序[1,32] - [1,2,3] 排序
使用localhost:4040可以查看IDEA代码中算子的执行情况可以使用Thread.sleep(10000)来睡眠一会保证可以打开该网页。
key-value类型
算子名称作用mapValues对value进行映射groupByKey对数据进行汇总可以设置分区数量或分区器reduceByKey对数据进行汇总计算底层会打散重分区增加了预聚合sortByKey对Key进行排序底层是Range分区reduceByKey不能用于减法和除法运算只能用于加法和乘法计算。
两种分区
Hash分区极端情况有可能导致数据倾斜适合用于聚合。Range分区尽量保证每个分区中数据量均匀适合用于排序。使用Range分区器的算子有groupByKey, sortBy, cogroup.