3.3.8.0版本, 出现卡死问题, 无法访问数据库

【TDengine 使用环境】
生产环境

【TDengine 版本】

TDengine TSDB-OSS ver:3.3.8.0

【操作系统以及版本】

CentOS 7.9

【部署方式】非容器部署

【集群节点数】1

【集群副本数】1

【描述业务影响】

物联网数据存储测试, 数据量不大. 1分钟存储400条数据;

【问题复现路径/shan】做过哪些操作出现的问题

服务器运行一段时间会出现这个卡死问题.

【遇到的问题:问题现象及影响】

卡死;

影响整个服务, 无法读取, 无法写入数据.

【资源配置】

32核, 64GB, 2T阵列(剩余40%空间);

【报错完整截图】(不要大段的粘贴报错代码,论坛直接看报错代码不直观)

1 个赞

从这些日志看,没有什么相关的异常。

taos shell 还能连接上吗?如果可以的话,请执行 如下命令查看一下集群的情况:

show dnodes;
show mnodes;

show vnodes;

taos shell 可以连接上, 但是其他程序访问不上.

1月10日重启的taosd, 昨天(1月11日)又出现了. 现在又是这个问题中.

看这个失败的日志,有一个提示vgId: 1 , 但是并不存在这样一个vgroup;

重复这个操作:

开始出问题的地方:

那应用程序无法访问的时候,返回的是什么错误码?

没有任何日志输出

今天上午有这么一串错误日志

这个不是错误,你看前面只是一个 INFO。如果是 ERROR 才是错误。

不是服务端的日志,我是说应用程序无法访问的时候,应用程序应该也输出一些日志来协助定位,包括服务端返回的错误码。

应用程序是Java端的, 没有日志输出.

应用程序也不设置超时吗?如果服务端不返回的话,就一直等?

配置了的,

<property name="maxWait" value="60000"></property>

今天早上凌晨2点多, 又开始出现问题了, 生产环境出现有的能查询, 有的查询不出来数据(数据稍多点的, 如超过500行记录); 然后代码调试, 出现如下错误:

systemctl restart taosd 命令重启, 会等很久都没有反应, 我们直接kill掉进程, 它就自动重启了, 然后都恢复正常.

这种问题无法简单交流就能分析出来,可能还需要打开 debug调试开关,详细查看服务日志才能定位。

可以远程分析一下不? 出现的频率有点高. 感觉几乎每天都出现了.

可以。加个微信联系吧:13611161621

好的, 谢谢