SQL任务运行时间省40%,后悔没早从Hive迁到Spark…(9)
2021-06-02 09:45 dbaplus社群
五、迁移结果
经过6个多月的团队的努力,我们迁移了1万多个Hive SQL任务到Spark SQL,在迁移过程中,随着spark SQL任务的增加,SQL任务的执行时间在逐渐减少,从最初的1000+秒下降到600+秒如下图所示:
迁移后Spark SQL任务占比85%,SQL任务运行时间节省40%,计算资源节省21%,内存资源节省49%,迁移的收益是非常大的。
六、下一步计划
迁移之后Spark已经成为SQL任务的主流引擎,但是还有大量的shell类型任务使用Hive执行SQL,所以后续我们会迁移shell类型任务,把shell中的Hive SQL迁移到Spark SQL。
在生产环境中,有些shuffle 比较中的任务经常会因为shuffle fetch重试甚至失败,我们想优化Spark External Shuffle Service。
社区推出Spark 3.x也半年多了,在功能和性能上有很大提升,所以我们也想和社区保持同步,升级Spark到3.x版本。
作者丨滴滴大数据
来源丨公众号:滴滴技术(ID:didi_tech)
dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn
关注公众号【dbaplus社群】,获取更多原创技术文章和精选工具下载
官方微信公众号:掌酷门户(wapzknet)
相关资讯
新闻热点
精选美图