Tdengine 集群突然连接超时,重启不生效,将近1小时后自动恢复

【TDengine 使用环境】
生产环境 /测试/ Poc/预生产环境

【TDengine 版本】

3.3.2.0

【操作系统以及版本】

CentOS Linux release 7.9.2009 (Core)
Derived from Red Hat Enterprise Linux 7.9 (Source)

【部署方式】容器/非容器部署

非容器部署

【集群节点数】

3

【集群副本数】

3

【描述业务影响】

连接td库超时,所有与td库相关的业务中断

【问题复现路径/shan】做过哪些操作出现的问题

经过排查,没发现做过特殊操作,会引起taos 无法连接。已经运行一年多,第一次出现无法连接的情况

【如何恢复】

无法连接时,重启了taos库。重启后仍然无法连接,后续持续1小时后自动恢复

【资源配置】

3个节点。每个都是:cpu:8核 ;32G

无法连接发生在15: 53;TDEngine1/3 高负载 cpu 消耗接近100%发生在16:30。在16:18重新启动了taos数据库.大模型分析结果: taos_ADAPTER 组件的 6043 监控上报端口发生独立的组件级异常,导致 TCP 连接被拒绝,引发上层业务连接时序库超时;16:18 执行的 taosd 主进程重启操作,因故障对象与重启对象不匹配完全无效,未能解决 6043 端口异常;后续因 DAPR 组件的高频重试请求堆积,在 16:30 引发 TDEngine1/3 节点 CPU 使用率骤升至 100%,成为故障衍生问题;最终在 16:57 左右,因 taos_ADAPTER 组件的兜底机制触发 6043 端口异常自愈,重试请求停止堆积,CPU 负载回落,数据库连接自动恢复正常。

这些信息太少,无法判断。无法连接时,taos shell 还能正常登录吗?
如果不能登录,需要查看各个taosd 的日志?

如果还能登录,请登录taos shell 查看集群的状态,mnode leader是否正常?

最好是结合各个 taosd 日志进行分析原因。

taos shell 还能正常登录。mnode leader是否正常没有查后,检查服务,端口正常,但是不能访问后,运维就将taos库重启了。