THIS IS A TEST INSTANCE. ALL YOUR CHANGES WILL BE LOST!!!!

集群容错机制

Created by Jialin Qiao on Jan 13, 2022

针对每种异常，设计异常发现和处理机制。

单节点宕机

客户端容错。
共识组不阻塞读写。
宕机超过时间阈值时，如果宕机的为 DataNode，则 PartitionNode 可以修复其上的副本。

磁盘满

负载均衡策略负责磁盘负载的动态均衡
可以通过调度 VSG/MManager 共识组的方式来减少节点的磁盘空间。

网络延迟，分区

如果集群间的请求延迟出现超时，则协调者节点需要根据请求类型来判断返回超时报错还是缺省返回。
如果集群间出现分区时，可能存在共识组出现两个 leader 一起向 PartitionNode 汇报状态，因此集群需要维护每个共识组的最大 term 来保证只有共识组的合法 leader 信息才会被处理。

节点 OOM

单节点 OOM 不影响其他节点的状态。

锁，资源管理

跨节点的持锁和资源维护（查询）需要有自动释放机制。

No labels

1 Comment

Jamber
单节点宕机，且不恢复的情况下。
是否要考虑自动将宕机节点数据自动备份到其它节点的能力。即用其它 alive 机器充当原共识组里的新节点？
- Permalink
- Mar 10, 2022
- Delete comments