从现象“手动点恢复告警失败”看,虽然后台Pod状态显示“没有异常”,但核心处理告警的应用层逻辑可能已经卡住了。
你可以尝试按照以下思路来排查:
检查原始告警状态:在告警列表中直接查看这条告警,确认其状态是否仍为“告警中”。如果已恢复,手动操作自然会失败。
检查恢复Trap:如果告警来自设备Trap,登录设备确认它是否已正常发出了恢复Trap。若未发出,平台就无法收到。
Pod状态正常不代表其内部服务完全健康,建议检查以下关键Pod的日志:
alarm-calculator:处理告警生成与恢复的核心服务。你可以使用 kubectl logs -n <命名空间> <alarm-calculator-pod名称> 查看其日志,看是否有报错。也可尝试重启此Pod(kubectl delete pod -n <命名空间> <alarm-calculator-pod名称>)进行快速恢复。
imcfaultdm:负责处理设备Trap和接口信息的进程。可通过 kubectl exec 进入容器或用 systemctl status imcfaultdm 检查其状态,必要时重启。
itom-central-ucd:这是部署IOM等组件时可能遇到的Pod,若相关,请检查其日志。
查看所有Pod:使用 kubectl get pods -n <命名空间> 全面检查所有Pod的状态,确保没有Pending、CrashLoopBackOff等异常。
检查Trap浏览:登录系统后台,进入 “告警” > “Trap管理” > “Trap浏览” 页签,搜索相关Trap。如未找到,说明平台未收到恢复信息。
检查过滤/升级规则:在“Trap管理”中检查“过滤规则”和“转发规则”,确认没有规则错误地过滤掉了恢复Trap。
暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论