一尘不染

FIRST_VALUE()中具有IGNORE NULLS的异常行为(Vertica)

sql

我在带有IGNORE NULLS参数的Vertica的FIRST_VALUE()分析函数中看到意外的行为。它似乎不应该返回NULL。

问题出现在这个很小的表中:

drop table if exists temp;
create table temp (time_ timestamp(6), name varchar(10));
insert into temp (time_) values ('2016-03-18 20:32:16.144');
insert into temp (time_, name) values ('2016-03-18 20:52:09.062', 'abc');

这是表的内容(从临时表中选择*):

time_                   | name
------------------------+--------
2016-03-18 20:32:16.144 | <null>
2016-03-18 20:52:09.062 | abc

这是我正在运行的查询:

select time_,
  first_value(name ignore nulls) over (order by time_) first_name
from temp;

以下是此查询返回的结果:

time_                   | first_name
------------------------+------------
2016-03-18 20:32:16.144 | <null>
2016-03-18 20:52:09.062 | abc

这是我从此查询中期望(和期望)的结果:

time_                   | first_name
------------------------+------------
2016-03-18 20:32:16.144 | abc
2016-03-18 20:52:09.062 | abc

上面的查询是否有一个非常基本的语法错误?在Vertica Community Edition 7.1.1上会发生此问题。


阅读 216

收藏
2021-03-08

共1个答案

一尘不染

该功能按预期方式工作。
over (order by time_)是的快捷方式,over (order by time_ range unbounded preceding)它是的快捷方式over (order by time_ range between unbounded preceding and current row),这意味着每一行都只能看到其前面的行,包括本身。
第一行仅显示自身,因此其范围内没有非NULL值。

如果要整个作用域的第一个非NULL值,则必须指定整个作用域:

first_value(name ignore nulls) over 
    (order by time_ range between unbounded preceding and unbounded following) first_name

不,这绝对不是错误。

您可能一直在使用诸如sum(x) over (order by y)运行总计之类的语法,而RANGE UNBOUNDED
PRECEDING的默认窗口对您来说似乎很自然。
由于尚未为FIRST_VALUE函数定义显式窗口,因此您一直在使用相同的默认窗口。

这是另一个测试用例:

ts val
-- ----
1  NULL
2  X
3  NULL
4  Y
5  NULL

您希望从以下功能中得到什么?

last_value (val) order (by ts)

您希望从以下功能中得到什么?

last_value (val ignore nulls) order (by ts)
2021-03-08