您好,在CloudOS5.0环境中遇到与POD状态异常,不为Running时,可用如下方式进行排查
过程分析
1、查看该pod异常的具体描述
kubectl describe pod -n xxxxnamespace xxxxxx
查看其中的event事件说明
2、查看cloudos5.0数据库状态是否正常
pod |grep maxscale
kubectl exec -it os-maxcale-xxxxx maxadmin list servers
对应的三个mysql节点为os-mysql-node1、os-mysql-node2、os-mysql-node3
3、查看环境中所有的网络服务,包括业务网,pod网络
svc
oc get svc
4、查看节点etcd日志
master-logs etcd etcd |less
master-logs etcd etcd 2>&1|less
解决方法
default命名空间中的关键pod说明,这些pod异常时会导致其他pod异常
default redis几个pod比较关键,redisoperator负责维护自己的redis集群,redisproxy负责对外提供服务
当redis异常后一般通过重启方式恢复,重启整个redis集群,redis-0,redis-1,redis-2
另外三个redis-xxxx为redis的哨兵,负责redis主从确认
重启完redis集群之后再重启redisoperator和redisproxy两个pod,重启过程较慢,大概几分钟
暂无评论