Apache Kylin : Analytical Data Warehouse for Big Data
Page History
...
资源探测会收集一些必要的信息为后续的自动调参、构建任务准备。构建任务资源探测会将如下三个文件记录到 working-dir/working−dir/project/job_tmp/$jobId/share 目录下:
a. count_distinct.json 是否需要构建count distinct measure
b. 每个segment会生成 ${seg_id}_resource_paths.json,每个根节点的执行计划的所有文件路径
c. 每个segment会生成 {seg_id}_cubing_detect_items.json,每个根节点的执行计划的分区数总和(如果源表是一个view,会遍历view 下面的所有leafNode的分区数之和)
需要注意的是merge任务资源探测只会生成count_distinct.json和segidcubingdetectitems.json,每个根节点的执行计划的分区数总和(如果源表是一个view,会遍历view下面的所有leafNode的分区数之和)需要注意的是merge任务资源探测只会生成countdistinct.json和{merged_segment_id}_resource_paths.json
各个Spark参数设置规则如下:
spark.executor.memory
...