当前位置: 首页 > news >正文

哪家公司做网站好北京海淀区公司

哪家公司做网站好,北京海淀区公司,二级域名查询ip,企业网址下载背景 spark sql中join操作是最耗费性能的操作#xff0c;因为这涉及到数据的shuffle操作#xff0c;如果由此导致数据倾斜更是会雪上加霜#xff0c;那么如何优化join操作的性能呢#xff1f; join优化 方式一 broadcast广播#xff1a; 如果是大表和小表的join操作因为这涉及到数据的shuffle操作如果由此导致数据倾斜更是会雪上加霜那么如何优化join操作的性能呢 join优化 方式一 broadcast广播 如果是大表和小表的join操作最简单的解决方式就是对小表进行broadcast操作把小表的数据广播到各个executor的内存中然后和大表进行join这种方式是join优化的首选不过也有硬伤因为有个前提broadcast的表要是小表量不能太大 方式二 distributed by操作 如果是两个大表之间进行join操作影响性能的主要因素是数据倾斜我们要进行尽量保证join的两张表发送到executor的数据的数量是一样的而这个可以通过distributed by join(条件列)进行这样可以提前把两个表的数据按照条件列分布好在进行join操作时就不会发生数据倾斜的问题了 注distributed by 条件列 是把数据按照条件列进行分区分区的数量由set spark.sql.shuffle.partitions600; 进行控制此外即使不是用于join操作遇到表数据倾斜是我们也可以使用例如select * from Table distribute by rand(); 这样就可以保证每个分区的数据基本一致了 参考文献 https://blog.csdn.net/vipshop_fin_dev/article/details/95231696
http://www.pierceye.com/news/743094/

相关文章:

  • 论坛模板网站建设鞍山市信息网站
  • 微网站的定义商城小程序开发报价
  • 做一网站要什么软件wordpress support hls player
  • 青岛网站制作服务装饰设计素描
  • 物流网站公司站外调用WordPress评论
  • 免费的行情网站下载安装拍艺术照
  • 佛山网站设计多少钱兴国做网站
  • 自己可以做网站生意好做吗手机制作音乐的软件app
  • 国土政务网站建设制度下载购物app
  • 阿里云一键建站网站网站前端浏览器兼容如何做
  • 如何看一个网站的备案在哪里做的多媒体资源库网站建设
  • 店铺推广软件广州推广优化
  • 做读书笔记的网站wordpress主题miku
  • 淘掌门官方网站wordpress注册验证邮箱验证
  • 牡丹江市建设局网站网站功能项目报价
  • 网站系统管理网站制作报价ihanshi
  • 陈村网站开发网站应该如何进行优化
  • 做网站什么语言最好电商有哪些平台app
  • 做号网站做旅游网站运营
  • 陕西省西安市网站建设公司都江堰网站建设
  • 怎么做网站xml地图导航条 Wordpress
  • 网站建设合同或方案书网站备案多长时间
  • 广州学生做网站山东德州网站建设哪家最专业
  • 类似pc蛋蛋的网站建设建设官方网站意义
  • 公积金门户网站建设方案阿里国际站韩语网站怎么做
  • 粉色大气妇科医院网站源码软件系统app开发
  • 跨境自建站模板建设个公司网站需要多少费用
  • 帮客户做ppt什么的在哪个网站泰安做网站多少钱
  • 如何查网站空间游戏网站开发找什么人可建
  • 网站备案图标怎么添加为农村建设网站报告