生产环境使用K8S部署TDengine集群,节点离线,重新启动整个集群,无法启动

【TDengine 使用环境】
生产环境

【TDengine 版本】

3.3.8.8

【操作系统以及版本】

华为云CCEK8S集群 EulerOS 2.0

【部署方式】容器/非容器部署

K8S集群部署

【集群节点数】

3

【集群副本数】

3

【描述业务影响】

平台发现请求接口部分成功部分失败,响应报错“query memory exhausted”,故而重启TDengine集群,等了半个小时测试说没有启动起来。

【问题复现路径/shan】做过哪些操作出现的问题

查看日志发现有报错“Sync leader is restoring”,故而再重启一次依旧没有启动起来。github搜索一圈,尝试把三个节点vnode中得wal备份,然后删除,再重启发现还是不行。

【遇到的问题:问题现象及影响】

【资源配置】

【报错完整截图】(不要大段的粘贴报错代码,论坛直接看报错代码不直观)

三个节点都是如下报错信息。目前已经尝试设置日志等级 debugFlag 135

tdengine0日志:https://twin-v3.obs.cn-south-1.myhuaweicloud.com/test/tdengine/taos0.tar.gz

tdengine1日志:

https://twin-v3.obs.cn-south-1.myhuaweicloud.com/test/tdengine/taos1.tar.gz

tdengine2日志:

https://twin-v3.obs.cn-south-1.myhuaweicloud.com/test/tdengine/taos2.tar.gz

从报告的错误看,是集群没有能选出主来。

从日志看,是节点之间的连接不通了。估计这是根因。

请先排查一下这个节点之间的网络是否正常。

ping tdengine-0.taosd.tdengine.svc.cluster.local tdengine-1.taosd.tdengine.svc.cluster.local tdengine-2.taosd.tdengine.svc.cluster.local 这些都是通得 没有问题 还要排查哪些可能得问题

如果集群不能恢复,那么现在得数据要如何拷贝出来,有什么方法