问题描述:
UIS 版本0750p08 超融合环境
现场:使用存储池的主机中节点11和12的tdefault_hdd共享文件系统存储池状态处于不活动。存储池本身状态正常,且其他节点正常使用
过程分析:
1、先看看系统日志和告警看看是否有相关提示,未看到异常
2、 排查网络,检查不活动节点的存储内外网是否正常联通,网络联通性正常
3、后台ceph -s/ceph osd tree/ceph osd df 查看存储健康状态是否正常,状态health_ok,osd
都up,osd利用率健康
4、了解到现场这两台主机都没有虚拟机,没有业务,在使用的存储池的主机这进行了删除该主机并重新添加的操作,报错该存储池不支持当前操作
5、新建test共享文件系统发现也在节点11和12处于不活动状态,尝试从节点12主机下拉起存储池,也报错不支持当前操作
6、后台lsblk与正常节点对比,发现test和defaultpool_hdd共享文件系统多路径还在,但是挂载点丢失
7、在节点12下进主机管理-硬件配适配器-openiscsi,选择放大镜图标,选择强制扫描,扫描结束后,存储池依旧处于不活动的状态
8、尝试后台拉起存储池,存储池还是处于不活动状态
9、前台进存储-块设备-映射管理中把存储池不活动的主机删除重新添加进来,存储池还是处于不活动的状态
10、查看存储日志,var/log/fsm/fsm_core.log,提示o2cb参数不一致
11、对比正常节点与存储池不活动状态节点的/etc/default/o2cb文件,发现异常节点相关阈值丢失,进行vim修改与正常节点一致后,systemctl restart o2cb 服务后,过一会存储正常拉起,恢复正常,另一个异常节点也是相同原因导致。
解决方法:
排查下来是o2cb文件参数不一致导致,修改至一致后存储池正常拉起
无法访问这个页面 大佬方便截图么