Table of Contents |
---|
方案特点
- 原生分布式模块化
- 将 让 IoTDB 的各个组件模块化,分布式或单机实例均通过这些模块组合而成各个模块原生支持分布式,分布式或单机实例均通过这些模块组合而成。
- 单机只是分布式的特殊情况。
- 扩展性
- 支持快速(秒级)增加节点,无需迁移数据
- 支持新增节点后实时分担写入负载
- 支持数据读写以及磁盘空间使用的负载均衡
- 高可用
- 客户端可自动切换
- 单节点失效不影响集群服务
- 可观测
- 集群内置监控服务
名词汇总
名词 | 缩写对应现有的类 | 解释 | |||||
---|---|---|---|---|---|---|---|
ConfigNode | 不对应类 | 集群配置节点,集群节点信息,管理元数据分区及数据分区集群配置节点,管理集群节点信息、管理分区信息 | |||||
DataNode | 不对应类 | 数据节点,管理数据、元数据 | |||||
VirtualStorageGroupProcesor | VSG | 单个虚拟存储组 | |||||
ConfigManager | 新加 | 分区节点管理者,处理集群内部请求 | |||||
PartitionTable | 新加 | 分区表结构,包含元数据分区信息和数据分区信息 | |||||
StorageEngine | StorageEngine | 一个进程内的唯一数据存储引擎(单例) | |||||
DataRegion | VirtualStorageGroupProsessor | 管理一部分数据分区 | |||||
SchemaEngine | 新加 | 一个进程内的唯一元数据管理引擎(单例) | |||||
SchemaRegion | MManager | 管理一部分元数据分区 | MManager | 单个元数据管理引擎 | PartitionTable | PT | 元数据分区表及数据分区表存储引擎 |
集群角色
ConfigNode:管理数据分区、元数据分区、节点状态信息
...
- ConfigManager(分区管理器)
- 收集节点状态信息、负责分区表的修改、扩缩容、负载均衡
- PartitionTable(分区信息表)
- 元数据分区表、数据分区表
- StorageEngine(存储引擎)
- 单例结构,内部管理多个 VSG。TsFile 数据文件、数据合并、数据同步
- DataRegion(数据分区)VSG(虚拟存储组,对应单机的 VirtualStorageGroupProsessor)
- 管理一部分设备的数据管理一部分数据分区
- SchemaEngine(元数据管理引擎)
- 单例结构,内部管理多个 MManagerSchemaRegion
- SchemaRegionMManager
- 管理一部分元数据,包括设备、时间序列的增、删、查管理一部分元数据分区,提供元数据的增、删、查操作
- Protocal(网络协议层)
- 包含 RPC、RestAPI、MQTT 等多种协议的实现,将各种网络协议传来的请求转化为统一的数据处理格式
- ServiceProvider(请求处理层)
- 接收统一格式的数据处理请求,管理线程的并发模型。管理权限。
- Planner(执行计划生成器)
- SQL 解析器、查询计划生成、查询优化,生成 PhysicalPlan
- QueryExecutor(查询执行器)
- 原始数据查询、聚合查询等
- Coordinator(协调器)
- 接收执行计划,并判断此计划是本地执行还是远端执行。对于写入计划,交给共识模块进行多副本写入。对于查询计划,负责执行计划的拆分、分发读写请求、合并结果集。
- Consensus(共识层)
- 管理多个数据副本组,根据一致性级别调度读写请求到对应副本
...
集群模块分布示例
每个存储组对应 集群总核数/副本数个 VSG DataRegion(V) 共识组,并且对应 M 个 MManager SchemaRegion(M) 共识组
M: MManagerSchemaRegion
V: VSGDataRegion
C: ConfigManager
ConfigNode
功能:分区表管理者维护节点状态信息、数据分区表、元数据分区表,同时负责集群扩缩容和负载均衡。
节点状态信息
对于每个 DataNode,记录以下信息:
- 静态指标
- CPU 核数、总内存、磁盘总容量、磁盘类型、网卡最大吞吐
- 动态指标
- CPU 信息(负载,利用率)、内存信息(剩余内存)、磁盘 IO 信息(磁盘利用率)、存储空间信息(剩余容量),网络流量负载(网卡当前吞吐)。
- 数据负载:VSG 个数及其中的 Leader 个数,MManager 个数及其中的 Leader 个数
- 对于每个 VSG:记录序列数量,数据文件个数、大小
- 对于每个 MManager:记录序列数量
数据结构:DataNodeID->NodeInfo。(预估单节点的 NodeInfo 在 4KB 之下,因而此架构支持上百节点的节点状态表在 1MB 以内,不会成为瓶颈。)
元数据分片与分配
数据分片与分配
DataNode
管理数据、元数据的写入和查询。
分区表缓存
维护当前用到的分区表缓存,包括数据分区表和元数据分区表,以避免写入频繁访问 ConfigNode。
元数据持久化存储
每个 VSG 内部持久化存储其写入数据对应的元数据。
作用
- 数据写入时可在本地进行数据类型检查,避免每次写入访问 ConfigNode 和 MManager
- 查询时进行本地序列的存在性检查
- 场景:查询 d1.s1 时,分区表节点会告知协调者此设备所在的设备组所在的所有节点,其中某些节点可能不存在此序列,通过本地元数据可快速识别,避免访问每个数据文件
客户端
网络通信
节点增删
ConfigNode 增删流程
DataNode 增删流程
读写流程
数据管理:DML
数据写入
MPP 查询框架
元数据管理:DDL
元数据操作
共识层
负载均衡
集群容错机制
集群监控框架
数据导入导出
集群运维工具
待讨论
- 设备模板的读写流程
- 客户端与数据节点的【分区表缓存】及【读写流程适配】
- 节点的后台线程,SEDA模型
- 心跳,Lease
- 各模块的改造:StorageGroupProsessor,PlanExecutor,MManager,PhysicalPlan
代码修改
开发分支:new_cluster
模块结构:
...
- 单机:实现 StandAloneServiceProvider,将请求(PhysicalPlan)发送给 PlanExecutor(QueryExecutor)执行
- 分布式:实现 ClusterServiceProvider,将请求(PhysicalPlan)发送给 Coordinator 执行,Coordinator 再与 ConfigNode 和其他 DataNode 交互进行读写。
新增 package:Coordinatorpackage: Coordinator
ConfigNode:新增 Module
新增 package:ConfigManager、PartitionTable
...
第三阶段:MPP 查询引擎,ConfigManager 负载均衡策略,Consensus 的 sofa-jraft 集成
ConfigNode
功能:分区表管理者维护节点状态信息、数据分区表、元数据分区表,同时负责集群扩缩容和负载均衡。
节点状态信息
对于每个 DataNode,记录以下信息:
- 静态指标
- CPU 核数、总内存、磁盘总容量、磁盘类型、网卡最大吞吐
- 动态指标
- CPU 信息(负载,利用率)、内存信息(剩余内存)、磁盘 IO 信息(磁盘利用率)、存储空间信息(剩余容量),网络流量负载(网卡当前吞吐)。
- 数据负载:VSG 个数及其中的 Leader 个数,MManager 个数及其中的 Leader 个数
- 对于每个 VSG:记录序列数量,数据文件个数、大小
- 对于每个 MManager:记录序列数量
数据结构:DataNodeID->NodeInfo。(预估单节点的 NodeInfo 在 4KB 之下,因而此架构支持上百节点的节点状态表在 1MB 以内,不会成为瓶颈。)
元数据分片与分配
数据分片与分配
DataNode
管理数据、元数据的写入和查询。
分区表缓存
维护当前用到的分区表缓存,包括数据分区表和元数据分区表,以避免写入频繁访问 ConfigNode。
【需详细设计缓存一致性维护】
元数据持久化存储
每个 VSG 内部持久化存储其写入数据对应的元数据。
...
- 数据写入时可在本地进行数据类型检查,避免每次写入访问 ConfigNode 和 MManager
- 查询时进行本地序列的存在性检查
- 场景:查询 d1.s1 时,分区表节点会告知协调者此设备所在的设备组所在的所有节点,其中某些节点可能不存在此序列,通过本地元数据可快速识别,避免访问每个数据文件
客户端
网络通信
节点增删
ConfigNode 增删流程
DataNode 增删流程
读写流程
数据管理:DML
数据写入
MPP 查询框架
元数据管理:DDL
元数据操作
共识层
负载均衡
内存控制
内存控制应该分拆到读写流程和元数据模块中,分布式启动时需要设置每个节点的内存。
集群容错机制
集群监控框架
数据导入导出
集群运维工具
待讨论
...
协作计划
模块(接口) | 内容 | 参与贡献者 | 设计定稿 | 原型开发完成 | 测试调优完成 |
分区管理(ConfigManager) | 元数据分区策略、元数据负载均衡策略(确定元数据从哪迁移到哪) | 陈荣钊 | 3.31 | 4.31 | 5.31 |
数据分区策略、数据负载均衡策略(确定数据从哪迁移到哪) | |||||
共识层(Consensus、Raft) | 集群扩容、启动流程 | 谭新宇 | |||
集群缩容、节点停机 | |||||
数据迁移流程(负载均衡、缩容会触发数据迁移流程) | |||||
Consensus 层读写流程 | |||||
Raft 读写流程 | |||||
元数据操作(MManager) | DDL 执行流程(DataNode 内的元数据缓存更新策略,向 ConfigNode 上报统计信息) | 薛恺丰、江天 | |||
数据写入(Coordinator、StorageEngine、VSG) | 写入流程(内存控制、客户端分区信息缓存管理、DataNode分区信息缓存管理) | 侯昊男、权思屹 | |||
查询引擎(Coordinator) | 查询算子 | 张金瑞、田原、苏宇荣、魏祥威 | |||
基于规则的优化器 | |||||
单机查询适配 | |||||
分布式调度、执行器 | |||||
查询内存控制 | |||||
监控(MetricManager) | 集群监控框架 | 张洪胤 | |||
多租户管理 | 权限管理 | ||||
资源隔离 |
...