目标

无需在有无乱序数据时分开配置
避免设置活跃的 partition 个数
考虑 PrimitiveArrayPool 内存占用
尽量有效利用内存，使 Chunk 尽量大
尽量保证创建元数据成功，为保证内存不爆，可以拒绝写入
尽量在有无乱序情况下，iotdb参数不需要变化都能很好适应
尽量不阻塞写入
尽量不加入固定参数

Image Added

所涉及的统计信息类

AbstractMemTable

包括以下两个内存统计值：

tvListRamCost：所有TVList被分配的内存总大小，包括TEXT值和primitive arrays中未被占用的空值
memSize：数据点实际占用的内存大小，包括TEXT值

两者的关系如图所示：

Image Added

从图中可以看出，memSize ≤ tvListRamCost

TsFileProcessorInfo

维护一个TsFileProcessor的内存占用，任何内存变动都需要向StorageGroupInfo汇报

memCost：所有ChunkMetadata占用的内存大小

StorageGroupInfo

维护一个存储组的内存占用，当内存占用的增量超过指定的阈值时向SystemInfo汇报

memoryCost：所有TsFileProcessor占用的ChunkMetadata、primitive arrays和TEXT值的内存总和，即∑ TsFileProcessorInfo.memCost + AbstractMemTable.tvListRamCost

SystemInfo

维护所有存储组的内存占用

totalStorageGroupMemCost：所有StorageGroupInfo中memroyCost的总和

写入流程各部分内存统计

RPC模块

一次请求的大小受限制 thrift_max_frame_size=67108864

现有问题：

用户设置活跃的partition比较麻烦
有无乱序情况的最佳配置不一样
PrimitiveArrayPool内存占用没考虑，容易爆内存
开启动态参数后创建时间序列经常失败
动态参数计算出的memtable偏小，chunk较小，影响查询性能
对象内存估计不准确
内存中一个时间序列点数过多，上1万，拷贝排序较慢

新策略：

目标（解决1-5）

尽量保证创建元数据成功，为保证内存不爆，可以拒绝写入

尽量在有无乱序情况下，iotdb参数不需要变化都能很好适应

让chunk大小最大化

尽量不阻塞写入

尽量不加入固定参数

Image Removed

RPC模块：

一次请求的大小受限制 b.（防止许用户一条SQL写入1亿个点等场景；或者写了一个大于2GB的bytes[]).
并发数受限制 c。

内存写入模块：

优点：

所有SG共享内存，不再对每个SG单独设置一个内存上限，因此创建序列（或今后改为序列活跃情况变化）时也不需要再更新SG；好处是内存利用率可以很高；

缺点：

部分步骤需要全局锁；目前看，假设array为k，SG info 写x延迟上报，则个memTable写入16MB后，会拿一次全局锁更新全局内存情况。

rpc_max_concurrent_client_num=65535。

核心思想：

Schema和历史resource单独分配大小；下文仅考虑其余写数据部分大小。
每个SG统计自身的chunk_metadata和unseal_resource大小；
全局ArrayPool统计buffered和out of buffer的array大小
系统统计总的大小

数据写入流程

写入线程：

如果是非空的写入线程
- 在 StorageEngine 中检查SystemInfo是否为reject状态；如果是，则该写入线程循环sleep 50ms（等待flush线程释放内存，system置回正常状态）再进行写入；如果等待max_waiting_time_when_insert_blocked后仍为reject状态，抛出写入异常；
检查SystemInfo是否为reject状态；如果是，则该写入线程循环sleep 100ms 等待flush线程释放内存，system置回正常状态再进行写入；如果等待6000ms后仍为reject状态，抛出写入异常；
- 进入对应的StorageGroupProcessor，获取 writeLock
- 进入对应分区的 TsFileProcessor：（1）获取已有的可写入的顺序或乱序 TsFileProcessor（2）如果没有可写入的TsFileProcessor，创建新的 TsFileProcessor
  - 统计当前写入计划新增的内存占用，增加至TspInfo和SgInfo中：（1）新测点增加 chunk_

metadata（2）

新设备增加 unclosed resource（3）

TEXT 类型数据（4）

- - metadata（2）TEXT 类型数据（3）TVList 中增加的

PrimitiveArray（5）flush内存

- - PrimitiveArray（4）flush内存
  - 如果 SGInfo 增量超过阈值（storage

如果SGInfo变化超过System 上报的阈值（storage

- - _group_size_report_threshold=16M）
- - - - 向SystemInfo进行上报（将当前 TsFileProcessor 传入）；
        synchronized(SystemInfo) {
        更新 SystemInfo 内存占用。
        如果 SystemInfo 内存占用 < 总写入内存 * flush_proportion，返回 true。
        如果总写入内存 * flush_
- - - - proportion ≤ SystemInfo 内存占用 < 总写入内存 * reject_proportion, 执行
- - - - 选择Memtable提交flush流程，返回 true。
        如果总写入内存 *
- - - - reject_proportion ≤ SystemInfo 内存占用, SystemInfo 置为 reject
- - - - 状态，执行 选择Memtable提交flush流程，记返回值为 flag
        如果 flag = true
        如果 SystemInfo 内存占用 < 总写入内存，则返回 true
        如果 SystemInfo 内存占用 ≥ 总写入内存，直接抛写入Reject 异常
        如果 flag = false，则返回 false
        }
      - 判断 向SystemInfo上报 的返回结果
        如果返回 false，则该写入线程循环
- - - - sleep (50ms) ，检查 SystemInfo 的 reject 状态如果不
- - - - reject或者该memtable被标记为shouldFlush，执行正常写入。如果等待 max_waiting_time_when_insert_blocked 后仍为reject状态，抛出写入异常
- - - - 如果返回 true，则执行正常写入
        如果捕获到写入Reject 异常，reset SystemInfo，并继续向上抛
    - 检查 workingMemtable 的 shouldFlush，如果为true，提交 Flush 任务，并根据文件大小判断是否需要 close。
  - StorageGroupProsessor. 释放writeLock

Flush流程：

flush 分为两种一种为正常flush，为写入过程中触发，在insertPlan写入完成后正式开始进行异步flush（正常写入流程中flush）；另一种为异步即时flush，即触发后立刻开始flush（flush释放内存后，若System总内存仍处于flush阈值之上且当前没有flush任务时触发）

写入线程的提交flush流程：

获取整个系统当前正在 Flush 的线程个数，如果大于 0，就返回
使用 PriorityQueue 对当前 TsFileProcessor 占用内存由大到小排序，逐个标记 shouldFlush，直到标记的这些 TsFileProcessor 刷盘后内存能降到 flush 阈值的50%

Flush 线程的提交flush流程：

获取整个系统当前正在 Flush 的线程个数，如果大于 1，就返回
通过上报到system里的sgInfo，找到所有的TSP；
使用PriorityQueue pop出当前workMemTable内存占用最大的Top K个TSP，进行异步flush；如果flush此memtable后系统仍在flush阈值以上，再从PriorityQueue pop出一个TSP进行异步flush，直到这些memtable flush后会回到flush阈值一下或者PriorityQueue为空

关闭TsFile文件逻辑：

文件封口触发逻辑与现有master版本相同，都为一个insertPlan写入完成后，检查该TSP是否需要flush，如果需要，再检查是否TsFile大小超过阈值，如果超过，flush memtable后将文件封口。

如果是空的写入线程
- 进入对应的 StorageGroupProcessor，获取 writeLock
- 获取对应分区的 TsFileProcessor：如果（其 workingMemtable 不为空且 shouldFlush 为 true），则提交 flush 任务；否则直接返回。
- StorageGroupProsessor. 释放writeLock

选择Memtable提交flush流程：

使用 PriorityQueue 对当前系统所有 memtable 按占用内存由大到小排序
boolean flag = false
当前活跃内存 = SystemInfo 总内存 - SystemInfo flush内存
对 PriorityQueue 的每个 workingMemtable 逐个标记 shouldFlush，（直到标记的这些 TsFileProcessor 刷盘后 当前活跃内存 能降到 flush 阈值之下）
1. 提交一个异步的空的写入线程（写入被标记的 Memtable 中）
2. 判断此 workingMemtable 是否属于当前 TsFileProcessor，如果属于，flag = true
返回 flag

Flush 线程：

先更新 SystemInfo flush 内存
将 workingMemtable 移到 flushingMemtables 中

TsFile文件关闭逻辑：

一个insertPlan写入完成后，检查该TSP的 workingMemtable 的 shouldFlush 字段，如果为 true，再检查是否TsFile大小超过阈值，如果超过，flush memtable后将文件封口。
TsFile关闭完成后，清空该TSPInfo，重置对应的 SGInfo 状态，并向SystemInfo报告重置后SGInfo

...

如果此时SystemInfo 为reject状态且 `SystemInfo中统计的总内存 < 总写入内存 *

80%`，将SystemInfo 置于正常状态

如果`SystemInfo中统计的总内存 >= 总写入内存 * 50%`，触发即时flush

reject_proportion`，将SystemInfo 置于正常状态

MTree内存控制：

注册时间序列时，如果总时间序列个数*300 estimate_series_size > 总内存*write_read_schema_free_memory_proportion:schema，此时拒绝注册，抛出异常。

Space shortcuts

Page tree

Versions Compared

Old Version 11

New Version Current

Key

目标

所涉及的统计信息类

AbstractMemTable

TsFileProcessorInfo

StorageGroupInfo

SystemInfo

写入流程各部分内存统计

RPC模块

数据写入流程

相关参数整理

Space shortcuts

Page tree

Page History

Versions Compared

Old Version 11

New Version Current

Key

目标

所涉及的统计信息类

AbstractMemTable

TsFileProcessorInfo

StorageGroupInfo

SystemInfo

写入流程各部分内存统计

RPC模块

数据写入流程

相关参数整理