THIS IS A TEST INSTANCE. ALL YOUR CHANGES WILL BE LOST!!!!

Apache Kylin : Analytical Data Warehouse for Big Data

Page tree

Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

  • 第一阶段发生于初次构建 Segment 时,Kylin 通过算法及采样数据计算出 Cuboid 推荐列表(是 Cuboid 推荐列表吗?还是维度推荐列表?),然后根据此列表剪枝维度,构建 Cube
  • 第二阶段发生于 Cube 被使用一段时间之后,此时我们拥有了一些查询该 Cube 的指标数据,这些数据就存储在上述 Hive 表中,也能通过 System Cube 被记录。有了这些指标数据后,Kylin 就能够判断哪些 Cuboid 很少被利用,并通过 Cube Planner 推荐用户“剪去”这些 Cuboid,从而得到一个更精炼的 Cube。

1.4 模块关系图

1.3 待完成的内容

原理性的问题,待学习:

  • Cube Planner 的阶段 1,两种算法是如何剪枝的,不明白的话会影响该部分的测试,这个我看了多次但是不太明白
  • Cube Planner 的阶段 2,多么冷的 Cuboid 会被剪枝?

实践性的问题,待验证:

  • Dashboard 的指标和 Hive 表列字段及 System Cube 中维度/度量列的关系

2. 在测试中,需要完成以下内容:

2.1 目标:

  • 本 Test Plan 应该覆盖 Cube Planner,System Cube,Dashboard 的所有内容。
  • 本 Test Plan 能够从用户视角验证 System Cube 生效,Dashboard 指标数据正确,Cube Planner 能够按照预期正确剪枝。

...

  • 测试 Hive 表:在 Kylin 中做一些操作,如查询,Job 构建,然后查看 Hive 表中的数据是否有变化,变化是否正确 → 
  • 测试 System Cube & Dashboard:构建 System Cube,查看 Dashboard 中的数据是否有变化,变化是否正确 →
  • 测试 Cube Planner 阶段 1 :构建某 Cube 对应的特定的数据集(注意数据量,基数等),构建该 Cube,查看按照 Cube Planner 的算法是否有效的进行 Cuboid 减枝。
  • 测试 Cube Planner 阶段 2:构建某 Cube 下的特定的查询集(如某些 Cuboid 从不击中,某些 Cuboid 总是被击中),执行查询集,构建 System Cube 后通过 Cube Planner 优化 Cube,查看 Cuboid 冷热是否正确,优化建议是否正确 

2.

...

3 待完成的内容

原理性的问题,待学习:

  • Cube Planner 的阶段 1,两种算法是如何剪枝的,不明白的话会影响该部分的测试,这个我看了多次但是不太明白
  • Cube Planner 的阶段 2,多么冷的 Cuboid 会被剪枝?

实践性的问题,待验证:

  • Dashboard 的指标和 Hive 表列字段及 System Cube 中维度/度量列的关系
  • 测试前环境、数据集的准备工作:2.2 中的第 3、4

...

  • 条中的数据集和查询集,这也是比较难设计的
  • 细化 Test Plan,按步骤写 test case 和预期结果