首页 > 新闻中心 > 掌酷科技 > 数码 > VRAR >

SQL任务运行时间省40%,后悔没早从Hive迁到Spark…(2)
2021-06-02 09:45 dbaplus社群

开发一个SQL双跑工具,可以支持使用两个引擎执行同一个SQL任务;

下面详细介绍这两个方案:

1. 方案一:复用现有的SQL任务调度系统

再部署一套SQL任务执行系统用来使用Spark执行所有的SQL,包括HDFS,HiveServer2&MetaStore和Spark,DataStudio。新部署的系统需要周期性从生产环境同步任务信息,元数据信息和HDFS数据,在这个新部署的系统中把Hive SQL任务改成Spark SQL类型任务,这样一个用户的SQL在原有系统中使用Hive SQL执行,在新部署的系统中使用Spark执行。如下图所示,蓝色的表示需要新部署的子系统。

2. 方案二:开发一个SQL双跑工具

SQL双跑工具,可以线下使用两个引擎执行用户的SQL,具体流程如下:

3. 方案对比

1)方案一

① 优势

② 劣势

2)方案二

① 优势

② 劣势

经过权衡, 我们决定采用方案二, 因为:

三、迁移方案详细设计

1. Hive SQL提取

Hive SQL提取包括以下步骤:

标签: 后悔 时间 运行 迁到
0

上一篇:用Substance的小伙伴,快看看这些纹理材质是不是
下一篇:没有了
官方微信公众号:掌酷门户(wapzknet)

首页 > 新闻中心 > 掌酷科技 > 数码 > VRAR >
相关资讯

新闻热点
精选美图

导航新闻科技手机美图 女人娱乐时尚旅游生活

客户端合作免责友链
Copyright 2009-2021 蜀ICP备09035849号