集群部署,单节点异常导致整个集群不可用

【TDengine 使用环境】
测试

【TDengine 版本】

tdengine/tdengine:3.3.6.13

【操作系统以及版本】

ubuntu 24.04

【部署方式】容器/非容器部署

helm chart

【集群节点数】

3

【集群副本数】

3

【描述业务影响】

【问题复现路径/shan】做过哪些操作出现的问题

创建三副本的 Mnode,保证 Mnode 高可用
CREATE mnode on dnode 2;
CREATE mnode on dnode 3;

创建数据库和账密:
create user test pass ‘TKmZTPoxdR1’ sysinfo 1 createdb 1;
create database test replica 3;
grant all on test to test;

使用k8s命令将pod副本数缩减为2个(kubectl -n system scale sts tdengine --replicas=2),等待10分钟以上再扩容为3个(kubectl -n system scale sts tdengine --replicas=3在此期间持续写入数据)

【遇到的问题:问题现象及影响】

执行上述操作后,集群异常无法访问数据库,且数据写入有超时和失败现象

【资源配置】

【报错完整截图】(不要大段的粘贴报错代码,论坛直接看报错代码不直观)

TDengine 的副本设置为 3 了,不是随便就删除一个节点还可以工作的。这个副本和 k8s 的 replica 不一样,不能随便这么弄的。不太建议在k8s 里面部署

但是官方文档里有提到可以使用k8s部署,那您建议使用哪种方式部署?

是可以支持。但如果真生产环境建议单独机器部署