Apache Kylin : Analytical Data Warehouse for Big Data
Welcome to Kylin Wiki.
https://www.infoq.cn/article/2016/08/Apache-Kylin-Top-N/?utm_source=tuicool
TopN介绍
前面提到Space-Saving算法是在TopNCounter中实现的,此处我们对TopNCounter的实现进行一个简要的介绍。BaseTopN对象初始化的时候会创建TopNCounter对象,用户保存计算过程中符合TopN条件的行,对应于Spark UDAF的概念是aggregate buffer。update,merge,eval都是处理的TopNCounter。TopNCounter在初始化的时候需要指定容量
大小建议为N * TopNCounterOverview
Content Tools
ThemeBuilder
Apps