首页 > 新闻中心 > 掌酷科技 > 数码 > VRAR >

SQL任务运行时间省40%,后悔没早从Hive迁到Spark…(5)
2021-06-02 09:45 dbaplus社群

1. 语法差异

有些Hive SQL使用Spark SQL执行在语法分析阶段就会出错,有些语法差异我们在内部版本已经修复,目前正在反馈社区,正在和社区讨论,还有一些目前没有修复。

1)用例设计

2)未修复

2. UDF差异

在排查数据不一致的SQL过程中,我们发现有些是因为输入数据的顺序不同造成的, 这些差异逻辑上是正确的,而有些是UDF对异常值的处理方式不一致造成的,还有需要注意的是UDF执行环境不同造成的结果差异。

1)顺序差异

这些因为输入数据的顺序不同造成的结果差异逻辑上是一致的,对业务无影响,因此在迁移过程中可以忽略这些差异,这类差异的SQL任务属于经验可迁移。

① collect_set

假设数据表如下:

执行如下SQL:

执行结果:

差异说明:

collect_set执行结果的顺序取决于记录被扫描的顺序,Spark SQL执行过程中是多个任务并发执行的,因此记录被读取的顺序是无法保证的。

② collect_list

假设数据表如下:

执行如下SQL:

执行结果:

差异说明:

标签: 后悔 时间 运行 迁到
0

上一篇:用Substance的小伙伴,快看看这些纹理材质是不是
下一篇:没有了
官方微信公众号:掌酷门户(wapzknet)

首页 > 新闻中心 > 掌酷科技 > 数码 > VRAR >
相关资讯

新闻热点
精选美图


客户端合作免责友链
Copyright 2009-2021 蜀ICP备09035849号