名词解释

顺序空间：顺序数据文件所在的空间

乱序空间：乱序数据文件所在的空间

层级合并（在顺序空间或乱序空间内部执行）

不存在对齐时间序列时的层级合并流程

根据待合并文件列表，依次使用每个文件的TsFileSequenceReader，获取该文件的设备列表，生成所有的device集合
创建 TsFIleSequenceReader 缓存 ReaderCache
遍历device集合
- 根据 ReaderCache 得到相应的TsFileSequenceReader
- 根据device读取各个文件对应的ChunkMetadataListIterator（ChunkMetadataListIterator每次按字典序吐出 max_degree_of_index_node 个sensor及其对应的ChunkMetadata列表）
- 遍历算法1输出的每批待合并的 sensor 列表
  - 对于待合并列表中的每一个sensor
    - 如果是乱序空间的文件合并，采取 反序列化Page合并算法
    - 如果是顺序空间的文件合并
      - 如果某个 Chunk 的数据点数小于 merge_page_point_number，采取 反序列化Page合并算法
      - 否则，采取 追加Page合并算法
- 关闭 ReaderCache 中所有的reader
- 序列化新文件的 TsFileResource
- 关闭新文件writer

算法1

输入：多个文件的 ChunkMetadataListIterator，Iterator 每次输出的 List 内的 sensor 个数为 max_index_degree（假设有3个文件：file1:(s1,s2)(s3,s4) file2:(s1, s3) file3:(s3,s4)

输出：每轮待合并的 sensor 列表

描述：每个迭代器取1个 List，找到每个 List 的最大字典序的 sensor，组成集合 S，本次合并从头开始合并到 S 中最小字典序的 sensor 。并从 List 中清除已合并的 sensor，如果此 List 消耗完，获取下一个 Lst

优势：每次至少会消耗完一个 file 的一个 List

第一轮：file1(s1,s2)+file2(s1,s3)+file3(s3,s4) → (s1,s2)

第二轮：file1(s3, s4)+file2(s3)+file3(s3,s4) → (s3)

第三轮：file1(s4)+file3(s4) → (s4)

反序列化Page合并算法

通过各自文件的reader有序把数据读出并整理出对应的time-value列表
遍历上述的time-value列表，将数据写入新的ChunkWriter
判断限流
将ChunkWriter写入新文件

追加Page合并算法

通过各自文件的reader有序把chunk读出来，并通过合并ByteBuffer和统计信息的方式不解析chunk数据点、而有序合并出对应的新Chunk和ChunkMetadata
判断限流
将合并完的Chunk和ChunkMetadata写入新文件

存在对齐时间序列时的层级合并流程

根据待合并文件列表，依次使用每个文件的TsFileSequenceReader，获取该文件的设备列表，生成所有的device集合
创建 TsFIleSequenceReader 缓存 ReaderCache
遍历device集合
- 根据 ReaderCache 得到相应的TsFileSequenceReader
- 根据 device 读取各个文件对应的ChunkMetadataListIterator
- 循环算法2输出的待合并的 IMeasurementSchema 列表
  - 对于待合并的 IMeasurementSchema
  - 如果是乱序的文件合并，采取 存在对齐时间序列的反序列化 Page 合并算法
  - 如果是顺序空间的文件合并
    - 如果某个 Chunk（如果是对齐时间序列，判断 TimeChunk）的数据点数小于 merge_page_point_number，采取 存在对齐时间序列的反序列化 Page 合并算法
    - 如果page足够大，采取 存在对齐时间序列的追加 Page 合并算法
- 关闭 ReaderCache 中所有的reader
- 序列化新文件的 TsFileResource
- 关闭新文件writer

算法2

输入：多个文件的 ChunkMetadataListIterator，Iterator 每次输出的 List 内的 sensor 个数（包含对齐时间序列内的序列数，不包含 time）为 max_degree_of_index_node（由于对齐时间序列是个整体，因此可能会超过部分）

输出：每轮待合并的 sensor 列表

描述：每个迭代器取1个 List，找到每个 List 的最大字典序（对齐时间序列按 time 的名字 $#$id 来比较）的 sensor，组成集合 S，本次合并从头开始合并到 S 中最小字典序的 sensor 。并从 List 中清除已合并的 sensor，如果此 List 消耗完，获取下一个 Lst

优势：每次至少会消耗完一个 file 的一个 List

Iterator 每次输出的 List 的例子：文件内的序列为：(time, s4,s5,s6), (time, s9, s10), s1,s2,s3,s7,s8

如果 max_degree_of_index_node 为 2，每次取出的为：(time, s4,s5,s6); (time, s9, s10); s1,s2; s3,s7; s8

如果 max_degree_of_index_node 为 3，每次取出的为：(time, s4,s5,s6); (time, s9, s10), s1; s2, s3,s7; s8

如果 max_degree_of_index_node 为 4，每次取出的为：(time, s4,s5,s6), (time, s9, s10); s1 s2, s3,s7; s8

存在对齐时间序列的反序列化 Page 合并算法

通过各自文件的IChunkReader有序把数据读出并整理出对应的time-value列表
- 如果是MeasurementSchema,使用ChunkReader
- 如果是VectorMeasurementSchema,使用VectorChunkReader
遍历上述的time-value列表，将数据写入新的IChunkWriter
- 如果是MeasurementSchema,使用ChunkWriterImpl
- 如果是VectorMeasurementSchema,使用VectorChunkWriterImpl
判断限流
将IChunkWriter写入新文件

存在对齐时间序列的追加 Page 合并算法

通过各自文件的reader有序把chunk读出来，并通过合并ByteBuffer和统计信息的方式不解析chunk数据点、而有序合并出对应的新Chunk和ChunkMetadata
- 如果是MeasurementSchema,仅需要前一个chunk和后一个chunk进行合并
- 如果是VectorMeasurementSchema,需要前一个VectorChunkMetadata对应的所有timeChunk和valueChunk与后一个所有的timeChunk和valueChunk合并
判断限流
将合并完的Chunk和ChunkMetadata写入新文件

例子：

VectorChunk1: timeChunk(page1,page2) s1Chunk(page3, page4) s2Chunk(page5)

VectorChunk2: timeChunk(page6) s1Chunk(page7) s2Chunk(page8)

合并后： timeChunk(page1, page2, page6) s1Chunk(page3, page4, page7), s2Chunk(page5, page8)

跨文件空间合并（将乱序文件合并至顺序空间）

不存在对齐时间序列的消除乱序文件合并流程

从MManager中的取出该 storageGroup 所有的device→sensor
遍历device列表
- 按组遍历device对应的sensor列表
  - 遍历顺序文件列表，对于每一个顺序文件
    - 根据device读取各个文件对应的ChunkMetadataListIterator（ChunkMetadataListIterator每次按字典序吐出1000个sensor及其对应的ChunkMetadata列表）
    - 循环遍历所有ChunkMetadataListIterator直到没有任何一个ChunkMetadataListIterator还有数据
      - 对于每一个sensor建立sensor→chunkMetadataList的列表
    - 对于每一个sensor→chunkMetadataList列表进行按合并子任务并行配置进行分组
      - 对于每个子任务的sensor→chunkMetadataList列表
        遍历每一个chunkMetadata对应的Chunk，如果有与unseq文件overlapped数据，则插入
        如果遍历完该unseq文件还有剩余的数据，则直接append到结果文件后面

存在对齐时间序列的消除乱序文件合并流程

从MManager中的取出改storageGroup所有的device→IMeasurementSchema
遍历device列表（去掉了sensor组的概念）
- 遍历顺序文件列表，对于每一个顺序文件
  - 根据device读取各个文件对应的ChunkMetadataListIterator（ChunkMetadataListIterator每次按字典序吐出对应的IMeasurementSchema及其对应的ChunkMetadata列表，每批个数为1000个普通MeasurementSchema或超过1000个sensor的最小的完整的VectorMeasurementSchema列表）（这里需要改变底层结构提高性能）
  - 循环遍历所有ChunkMetadataListIterator直到没有任何一个ChunkMetadataListIterator还有数据
    - 对于每一个IMeasurementSchema建立IMeasurementSchema→chunkMetadataList的列表
    - 读取每一个chunkMetadataList，建立List<List<Chunk>> chunks的结构
      - 如果是ChunkMetadata，将当前chunk读出包裹一个List放入chunks
      - 如果是VectorChunkMetadata，将当前chunk按timeChunk, valueChunk1,...valueChunkN 的顺序包裹一个List放入chunks
  - 对于每一个IMeasurementSchema→chunkMetadataList列表进行按合并子任务并行配置进行分组
    - 对于每个子任务的IMeasurementSchema→chunkMetadataList列表
      - 按文件顺序遍历chunks列表的chunkList，对于chunkList的第一个chunk, 如果有与unseq文件overlapped数据，则插入IChunkWriter
        如果IMeasurementSchema是MeasurementSchema，此时chunk列表的第一个chunk也是完整的chunk，直接写第一个chunk的数据写入ChunkWriterImpl
        如果IMeasurementSchema是VectorMeasurementSchema，此时chunk列表的第一个chunk是timeChunk，需要将timeChunk, valueChunk1,...valueChunkN 所有本行数据写入 VectorChunkWriterImpl
      - 如果遍历完该unseq文件还有剩余的数据，则直接append到IChunkWriter后面
        如果IMeasurementSchema是MeasurementSchema，直接append第一个chunk的剩余数据
        如果IMeasurementSchema是VectorMeasurementSchema，此时chunk列表的第一个chunk是timeChunk，需要将timeChunk, valueChunk1,...valueChunkN 所有剩余数据按行写入 VectorChunkWriterImpl

Space shortcuts

Page tree

名词解释

层级合并（在顺序空间或乱序空间内部执行）

不存在对齐时间序列时的层级合并流程

存在对齐时间序列时的层级合并流程

跨文件空间合并（将乱序文件合并至顺序空间）

不存在对齐时间序列的消除乱序文件合并流程

存在对齐时间序列的消除乱序文件合并流程

Space shortcuts

Page tree

对齐时间序列的合并

名词解释

层级合并（在顺序空间或乱序空间内部执行）

不存在对齐时间序列时的层级合并流程

存在对齐时间序列时的层级合并流程

跨文件空间合并（将乱序文件合并至顺序空间）

不存在对齐时间序列的消除乱序文件合并流程

存在对齐时间序列的消除乱序文件合并流程