生产环境使用K8S部署TDengine集群，节点离线，重新启动整个集群，无法启动

TDuser_TzVl_5330 · 2026 年5 月 6 日 12:43

【TDengine 使用环境】
生产环境

【TDengine 版本】

3.3.8.8

【操作系统以及版本】

华为云CCEK8S集群 EulerOS 2.0

【部署方式】容器/非容器部署

K8S集群部署

【集群节点数】

3

【集群副本数】

3

【描述业务影响】

平台发现请求接口部分成功部分失败，响应报错“query memory exhausted”，故而重启TDengine集群，等了半个小时测试说没有启动起来。

【问题复现路径/shan】做过哪些操作出现的问题

查看日志发现有报错“Sync leader is restoring”，故而再重启一次依旧没有启动起来。github搜索一圈，尝试把三个节点vnode中得wal备份，然后删除，再重启发现还是不行。

【遇到的问题：问题现象及影响】

【资源配置】

【报错完整截图】（不要大段的粘贴报错代码，论坛直接看报错代码不直观）

三个节点都是如下报错信息。目前已经尝试设置日志等级 debugFlag 135

tdengine0日志：https://twin-v3.obs.cn-south-1.myhuaweicloud.com/test/tdengine/taos0.tar.gz

tdengine1日志：

https://twin-v3.obs.cn-south-1.myhuaweicloud.com/test/tdengine/taos1.tar.gz

tdengine2日志：

https://twin-v3.obs.cn-south-1.myhuaweicloud.com/test/tdengine/taos2.tar.gz

TDuser_OEzS_1621 · 2026 年5 月 7 日 01:49

从报告的错误看，是集群没有能选出主来。

从日志看，是节点之间的连接不通了。估计这是根因。

请先排查一下这个节点之间的网络是否正常。

TDuser_TzVl_5330 · 2026 年5 月 7 日 02:32

ping tdengine-0.taosd.tdengine.svc.cluster.local tdengine-1.taosd.tdengine.svc.cluster.local tdengine-2.taosd.tdengine.svc.cluster.local 这些都是通得没有问题还要排查哪些可能得问题

如果集群不能恢复，那么现在得数据要如何拷贝出来，有什么方法