Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

Markdown
## 背景

在 IoTDB 中,聚合查询可以使用 `GROUP BY` 子句指定按照时间区间分段聚合。用户可以指定聚合的时间间隔和滑动步长,相关参数如下:

- 参数 1:整体的时间窗口。
- 参数 2(interval):划分时间轴的时间间隔参数(> 0)。
- 参数 3(slidingStep):滑动步长(可选,默认值与时间间隔相同)。

![img](https://user-images.githubusercontent.com/16079446/69109512-f808bc80-0ab2-11ea-9e4d-b2b2f58fb474.png)

在之前的定义中,滑动步长必须大于等于时间间隔,现在拟支持滑动步长小于时间间隔的情况。

## 设计思路

根据时间间隔和滑动步长将整体的时间窗口划分成若干**预聚合窗口**,对预聚合窗口内的数据进行聚合(调用之前的接口即可)。将这些预聚合值维护在一个队列中,根据这些预聚合值求出每个**聚合窗口**的聚合值。

## 算法过程

### 预聚合窗口划分

若 interval >= slidingStep,预聚合窗口等于聚合窗口。

若 interval < slidingStep,预聚合窗口由各个聚合窗口的边界划分而成。

例:整体时间窗口为 [0, 32),数据如下,灰色单元格表示对应时间戳没有数据。


  • interval = slidingStep = 4,预聚合窗口即为聚合窗口。

    Image Modified

  • interval = 4,slidingStep = 5,预聚合窗口即为聚合窗口。

    Image Modified

  • interval = 4,slidingStep = 6,预聚合窗口即为聚合窗口。

    Image Modified

  • interval = 4,slidingStep = 1,预聚合窗口大小为 1。

    Image Modified

  • interval = 4,slidingStep = 2,预聚合窗口大小为 2。

    Image Modified

  • interval = 4,slidingStep = 3,预聚合窗口大小为 3 -> 1 -> 2 -> 1 -> 2 -> ……

    Image Modified

Markdown
### 根据预聚合结果计算聚合值

对于不同的聚合函数,按照其特点有不同的处理方式,可以分为三组:

- SUM、COUNT、AVG:将当前聚合窗口内的预聚合值缓存在队列中,更新队列时同时更新聚合值。
- MAX_VALUE、MIN_VALUE、EXTREME:在上述算法的基础上,使用单调队列进行优化([LEETCODE-239](https://leetcode-cn.com/problems/sliding-window-maximum/solution/))。
- FIRST_VALUE、LAST_VALUE、MAX_TIME、MIN_TIME:顺序遍历时,LAST_VALUE 和 MAX_TIME 的聚合值总出现在右边界的预聚合值,因此中间结果无需缓存。反之,逆序遍历时,FIRST_VALUE 和 MIN_TIME 的预聚合值无需缓存。

时间复杂度:O(n + m),m 为预聚合窗口的数量。

空间复杂度:Q(p + k),k,p 为缓存的 BatchData 大小,k 为每个聚合窗口中预聚合窗口的数量。

例:整体时间窗口为 [0, 32),序列 `root.sg1.d1.s1` 的数据情况如下,灰色单元格表示对应时间戳没有数据,临近相同颜色的单元格表示来自同一个 BatchData。

**CASE**: 执行:`SELECT sum(s1), max_value(s1), last_value(s1), min_time(s1) FROM root.sg1.d1 GROUP BY ([0,32),8ms,2ms)`

解析 SQL 后得到参数,startTime = 0,endTime = 32,interval = 8,slidingStep = 2。每个预聚合窗口大小为 2。

下面演示各种聚合函数的计算过程:

...