不涉及
在进行ONEStor在线升级E3116->E3322的过程中,遇到升级一直卡在Cluster status is not healthy,please wait...
由于在升级过程中前台有显示Cluster status is not healthy,please wait...是正常的,但是很长时间一直处于这个状态是不正常的,这个时候进行了一下步骤的排查。
1、登陆到handy节点执行ceph -s 查看集群的状态
2、查看集群状态可以看到有一台作为mon角色的节点mon服务和osd服务已经down掉。
3、登陆到这台有异常的节点上,发现不能通过手动拉起服务的方式进行osd和mon的手动拉起,但是经过一段时间的观察,osd和mon有极短的时间在进行自动的拉起,此时怀疑是网络的不稳定造成的。
4、开始排查该节点的网络是否正常,对改节点的管理网、存储前端网、存储后端网的地址进行网络通信的测试,最终发现是该节点的存储后端网所在的bond1通信有异常,在长时间的ping网关测试中有大量的丢包现象。最终判断出是存储后端网的网络通信不稳定造成的节点的osd和mon服务异常。
确定是网络问题之后,对异常的bond1以及其绑定的成员网口eth1和eth3的网口的配置文件进行查看。
查看发现eth3的配置文件配置有误造成了bond1的通信异常,将配置修改正确重启网络服务待mon和osd
的服务自动拉起之后即可进行正常的在线升级。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作