目标

无需在有无乱序数据时分开配置
避免设置活跃的 partition 个数
考虑 PrimitiveArrayPool 内存占用
尽量有效利用内存，使 Chunk 尽量大
尽量保证创建元数据成功，为保证内存不爆，可以拒绝写入
尽量在有无乱序情况下，iotdb参数不需要变化都能很好适应
尽量不阻塞写入
尽量不加入固定参数

Image Added

所涉及的统计信息类

AbstractMemTable

包括以下两个内存统计值：

tvListRamCost：所有TVList被分配的内存总大小，包括TEXT值和primitive arrays中未被占用的空值
memSize：数据点实际占用的内存大小，包括TEXT值

两者的关系如图所示：

Image Added

从图中可以看出，memSize ≤ tvListRamCost

TsFileProcessorInfo

维护一个TsFileProcessor的内存占用，任何内存变动都需要向StorageGroupInfo汇报

memCost：所有ChunkMetadata占用的内存大小

StorageGroupInfo

维护一个存储组的内存占用，当内存占用的增量超过指定的阈值时向SystemInfo汇报

memoryCost：所有TsFileProcessor占用的ChunkMetadata、primitive arrays和TEXT值的内存总和，即∑ TsFileProcessorInfo.memCost + AbstractMemTable.tvListRamCost

SystemInfo

维护所有存储组的内存占用

totalStorageGroupMemCost：所有StorageGroupInfo中memroyCost的总和

写入流程各部分内存统计

RPC模块

一次请求的大小受限制 thrift_max_frame_size=67108864

现有问题：

用户设置活跃的partition比较麻烦
有无乱序情况的最佳配置不一样
PrimitiveArrayPool内存占用没考虑，容易爆内存
开启动态参数后创建时间序列经常失败
动态参数计算出的memtable偏小，chunk较小，影响查询性能
对象内存估计不准确
内存中一个时间序列点数过多，上1万，拷贝排序较慢

新策略：

目标（解决1-5）

尽量保证创建元数据成功，为保证内存不爆，可以拒绝写入

尽量在有无乱序情况下，iotdb参数不需要变化都能很好适应

让chunk大小最大化

尽量不阻塞写入

尽量不加入固定参数

Image Removed

RPC模块：

一次请求的大小受限制 b.（防止许用户一条SQL写入1亿个点等场景；或者写了一个大于2GB的bytes[]).
并发数受限制 c。

内存写入模块：

优点：

所有SG共享内存，不再对每个SG单独设置一个内存上限，因此创建序列（或今后改为序列活跃情况变化）时也不需要再更新SG；好处是内存利用率可以很高；

缺点：

部分步骤需要全局锁；目前看，假设array为k，SG info 写x延迟上报，则个memTable写入16MB后，会拿一次全局锁更新全局内存情况。

rpc_max_concurrent_client_num=65535。

核心思想：

Schema和历史resource单独分配大小；下文仅考虑其余写数据部分大小。
每个SG统计自身的chunk_metadata和unseal_resource大小；
全局ArrayPool统计buffered和out of buffer的array大小
系统统计总的大小

数据写入流程

写入流程：

写入线程

如果是非空的写入线程
- 在 StorageEngine 中检查SystemInfo是否为reject状态；如果是，则该写入线程循环sleep 50ms（等待flush线程释放内存，system置回正常状态）再进行写入；如果等待max_waiting_time_when_insert_blocked后仍为reject状态，抛出写入异常；
- 进入对应的StorageGroupProcessor，获取
给定一个写入计划，找到其对应的StorageGroupProcessor和TSP；
检查SystemInfo是否为reject状态；如果是，则该写入线程循环sleep 100ms 等待flush线程释放内存，system置回正常状态再进行写入；如果等待6000ms后仍为reject状态，抛出写入异常；

获取 StorageGroupProsessor 的

- writeLock
- 进入对应分区的 TsFileProcessor：（1）获取已有的可写入的顺序或乱序 TsFileProcessor（2）如果没有可写入的TsFileProcessor，创建新的 TsFileProcessor
  - 统计当前写入计划新增的内存占用，增加至TspInfo和SgInfo中：（1）新测点增加 chunk_

metadata（2）

新设备增加 unclosed resource（3）

TEXT 类型数据（4）

- - metadata（2）TEXT 类型数据（3）TVList 中增加的

PrimitiveArray（5）flush内存

- - PrimitiveArray（4）flush内存
  - 如果 SGInfo 增量超过阈值（storage

如果SGInfo变化超过System 上报的阈值（storage

- - _group_size_report_threshold=16M）
- - - - 向SystemInfo进行上报（将当前 TsFileProcessor 传入）；
        synchronized(SystemInfo) {
  - - - 更新 SystemInfo
  - - - 内存占用。
        如果 SystemInfo 内存占用 < 总写入内存 * flush_proportion，返回 true。
        如果总写入内存 * flush_
  - - - proportion ≤ SystemInfo 内存占用 < 总写入内存 * reject_proportion,
  - - - 执行 选择Memtable提交flush流程，返回 true。
        如果总写入内存 *
  - - - reject_proportion ≤ SystemInfo 内存占用, SystemInfo 置为 reject
  - 返回是否允许此次写入
    }
  - 如果返回禁止写入；如果是，则该写入线程循环sleep 100ms 等待flush线程释放内存，system置回正常状态再进行写入；如果等待30s后仍为reject状态，抛出写入异常；
  - 若此时捕获到写入异常，本次写入失败，返回客户端
  - 若写入正常，开始向working memtable中写入数据，当memtable中Array空间不足时，向Array Pool申请新的Array。array pool判断是否有已向系统报备过的该类型array（即Buffered array）

Flush流程：

flush 分为两种一种为正常flush，为写入过程中触发，在insertPlan写入完成后正式开始进行异步flush（正常写入流程中flush）；另一种为异步即时flush，即触发后立刻开始flush（flush释放内存后，若System总内存仍处于flush阈值之上且当前没有flush任务时触发）

正常flush流程：

通过上报到system里的sgInfo，找到所有的TSP；
使用PriorityQueue pop出当前workMemTable内存占用最大的Top K个TSP，将其标记为shouldFlush；如果flush此memtable后系统仍在flush阈值以上，再从PriorityQueue pop出一个TSP做标记，直到这些memtable flush后会回到flush阈值一下或者PriorityQueue为空
写入完成后在StorageGroupProcessor里检查shouldFlush，如果为true，进行异步flush过程

即时flush流程：

通过上报到system里的sgInfo，找到所有的TSP；
使用PriorityQueue pop出当前workMemTable内存占用最大的Top K个TSP，进行异步flush；如果flush此memtable后系统仍在flush阈值以上，再从PriorityQueue pop出一个TSP进行异步flush，直到这些memtable flush后会回到flush阈值一下或者PriorityQueue为空

关闭TsFile文件逻辑：

文件封口触发逻辑与现有master版本相同，都为一个insertPlan写入完成后，检查该TSP是否需要flush，如果需要，再检查是否TsFile大小超过阈值，如果超过，flush memtable后将文件封口。

- - - - 状态，执行 选择Memtable提交flush流程，记返回值为 flag
        如果 flag = true
        如果 SystemInfo 内存占用 < 总写入内存，则返回 true
        如果 SystemInfo 内存占用 ≥ 总写入内存，直接抛写入Reject 异常
        如果 flag = false，则返回 false
        }
    - 判断 向SystemInfo上报 的返回结果
      - 如果返回 false，则该写入线程循环 sleep (50ms) ，检查 SystemInfo 的 reject 状态如果不 reject或者该memtable被标记为shouldFlush，执行正常写入。如果等待 max_waiting_time_when_insert_blocked 后仍为reject状态，抛出写入异常
      - 如果返回 true，则执行正常写入
      - 如果捕获到写入Reject 异常，reset SystemInfo，并继续向上抛
  - 检查 workingMemtable 的 shouldFlush，如果为true，提交 Flush 任务，并根据文件大小判断是否需要 close。
- StorageGroupProsessor. 释放writeLock
如果是空的写入线程
- 进入对应的 StorageGroupProcessor，获取 writeLock
- 获取对应分区的 TsFileProcessor：如果（其 workingMemtable 不为空且 shouldFlush 为 true），则提交 flush 任务；否则直接返回。
- StorageGroupProsessor. 释放writeLock

选择Memtable提交flush流程：

使用 PriorityQueue 对当前系统所有 memtable 按占用内存由大到小排序
boolean flag = false
当前活跃内存 = SystemInfo 总内存 - SystemInfo flush内存
对 PriorityQueue 的每个 workingMemtable 逐个标记 shouldFlush，（直到标记的这些 TsFileProcessor 刷盘后 当前活跃内存 能降到 flush 阈值之下）
1. 提交一个异步的空的写入线程（写入被标记的 Memtable 中）
2. 判断此 workingMemtable 是否属于当前 TsFileProcessor，如果属于，flag = true
返回 flag

Flush 线程：

先更新 SystemInfo flush 内存
将 workingMemtable 移到 flushingMemtables 中

TsFile文件关闭逻辑：

一个insertPlan写入完成后，检查该TSP的 workingMemtable 的 shouldFlush 字段，如果为 true，再检查是否TsFile大小超过阈值，如果超过，flush memtable后将文件封口。
TsFile关闭完成后，清空该TSPInfo，重置对应的 SGInfo 状态，并向SystemInfo报告重置后SGInfo

...

如果此时SystemInfo 为reject状态且 `SystemInfo中统计的总内存 < 总写入内存 *

80%`，将SystemInfo

reject_proportion`，将SystemInfo 置于正常状态
如果`SystemInfo中统计的总内存 >= 总写入内存 * 50%`，触发即时flush

MTree内存控制：

注册时间序列时，如果总时间序列个数*300 estimate_series_size > 总内存*0.1，此时拒绝注册，抛出异常。write_read_schema_free_memory_proportion:schema，此时拒绝注册，抛出异常。

Space shortcuts

Page tree

Versions Compared

Old Version 8

New Version Current

Key

目标

所涉及的统计信息类

AbstractMemTable

TsFileProcessorInfo

StorageGroupInfo

SystemInfo

写入流程各部分内存统计

RPC模块

数据写入流程

相关参数整理

Space shortcuts

Page tree

Page History

Versions Compared

Old Version 8

New Version Current

Key

目标

所涉及的统计信息类

AbstractMemTable

TsFileProcessorInfo

StorageGroupInfo

SystemInfo

写入流程各部分内存统计

RPC模块

数据写入流程

相关参数整理