刷赞网站推广软件,石河子做网站,重庆建设网,dw软件主要做什么目录 我们先了解一下有哪些内存温馨提示RDD示范(spark版本2.1.1)RDD进行优化Df和Ds进行示范 我们先了解一下有哪些内存 1.storage内存 存储数据#xff0c;缓存 可预估2.shuffle内存 计算join groupby 不可预估spark1.6之前 静态管理的#xff0c;spark1.6之… 目录 我们先了解一下有哪些内存温馨提示RDD示范(spark版本2.1.1)RDD进行优化Df和Ds进行示范 我们先了解一下有哪些内存 1.storage内存 存储数据缓存 可预估2.shuffle内存 计算join groupby 不可预估spark1.6之前 静态管理的spark1.6之后变成动态管理 默认0.5温馨提示
在公司尽量不要写rdd(性能不好)
RDD示范(spark版本2.1.1)
我们转成rdd去跑任务看看内存占有多大 我们也可以去excutor看内存大小 显示红色是因为我写了while循环
RDD进行优化
看官网 https://spark.apache.org/docs/2.4.5/configuration.html#compression-and-serialization 我们采用kryo(只支持rdd) 我们需要看看rdd的缓存级别 https://spark.apache.org/docs/2.4.5/rdd-programming-guide.html#which-storage-level-to-choose 使用序列化的缓存级别 发现1.7g直接变成了270m优化还是挺大的
Df和Ds进行示范
看官网 https://spark.apache.org/docs/2.4.5/sql-getting-started.html#creating-datasets Ds会专门使用自己的偏码进行序列化 内存大小34.2M 我们还可以进行序列化(变化不大) 进行优化之后33.9M