元数据不一致导致 vnode 任务积压无法自动释放最终导致节点离线,如何手动恢复

【TDengine 使用环境】
生产环境

【TDengine 版本】3.3.6.3

【操作系统以及版本】Linux

【部署方式】容器部署

【集群节点数】2

【集群副本数】1

【描述业务影响】有一个库删除表任务积压不能自动导致节点离线,库无法删除

【问题复现路径/shan】批量删除数据库中的子表

【遇到的问题:问题现象及影响】节点离线,重启节点后任务积压无法恢复,Vnode restore 失败,状态一段时间转为离线最终导致整个节点离线。
可以不可以通过手动删除这个问题库释放积压的任务?

【资源配置】

【报错完整截图】(不要大段的粘贴报错代码,论坛直接看报错代码不直观)


删除超级表不会导致节点离线。请描述下删除超级表后的行为。
当前状态是节点启动后,过一段时间自动离线吗?

是批量删除子表任务堵塞导致的,日志中有删除子表 mta 报错提示。
重启后 restore 状态不能转 ture,一段时间后节点离线

请截下错误日志看下



目前drop库语句处在堵塞状态,数据库在dropping状态

我们分析下日志。

请再从日志里搜下看是否有 “TDB ERROR”。

我把vnode.json里71-102vnode的drop状态改成1,重启节点目前稳定运行,会有隐患吗?

那会认为71~102不存在。这些数据没有用吗?

没有用了,这个库想要删除但是因为堵塞删除不了,所处的vnode状态restore也一直是false。这个操作实际上内存是没有清除,一直被占用?

不会了,这些vnode相当于没有挂载,不存在了。但元数据层面应该还是有的。