CloudOS E5102H01,CloudOS集群3控制节点+6work节点
CloudOS5.0重启集群内节点后,大概率每节点运行一个的os-prometheus-prometheus-node-exporter pod无法自动恢复,处于CrashLoopBackOff或error状态。
1. 查看故障pod的事件信息,发现事件中提示当前节点已有运行的node-exporter
kubectl describe pod -n prometheus-monitoring os-prometheus-prometheus-node-exporter-XXXXX
2. 使用命令查看节点的进程,确实已存在一个node_exporter进程。
1. 根据查询到的pid,使用命令杀掉该node_exporter进程
2. 等待故障pod周期性重启,重启后状态将恢复正常
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作