登录UIS Manager,进入“资源池 -> 存储”页面,查看不活动的存储池详情:
ping 命令检查存储网IP地址的互通性。(0)
ceph -s
ceph osd tree
# 查看所有存储池(含本地与共享)
virsh pool-list --all
# 看“不活动”池的详情(重点:路径、挂载、autostart)
virsh pool-info defaultpool_hdd
# 存储核心日志(必看)
tail -f /var/log/fsm/fsm_core.log
# ceph日志
tail -f /var/log/ceph/ceph-osd.*.log
# 系统挂载/多路径
dmesg | grep -i error
lsblk
multipath -ll
# 1. 强制重新扫描iscsi(含openiscsi)
iscsiadm -m discovery -t st -p 存储网网关
iscsiadm -m node -L all
# 2. 重启多路径
systemctl restart multipathd
multipath -ll
# 3. 重新挂载存储池(替换pool名为你的池名)
virsh pool-start defaultpool_hdd
virsh pool-autostart defaultpool_hdd
# 1. 对比正常节点与异常节点的o2cb配置
cat /etc/default/o2cb
# 2. 把异常节点改成和正常节点完全一致(vim编辑)
vim /etc/default/o2cb
# 3. 重启o2cb服务
systemctl restart o2cb
# 4. 重新拉池
virsh pool-start defaultpool_hdd
# 1. 备份并重建autostart配置
cd /etc/libvirt/storage/autostart
cp defaultpool.xml.bak /var/ # 备份旧文件
mv defaultpool.xml /var/ # 移走异常文件
# 2. 重启libvirt,自动生成新配置
systemctl restart libvirtd
# 3. 启动并设置自启
virsh pool-start defaultpool_hdd
virsh pool-autostart defaultpool_hdd
# 1. 定位故障OSD
ceph osd tree
# 2. 重启异常OSD(替换ID)
systemctl restart ceph-osd@ID
# 3. 若磁盘坏,更换后重建OSD
ceph osd create
ceph osd add <新磁盘>
ceph -s、virsh pool-list --all 输出/var/log/fsm/fsm_core.log 完整日志/etc/default/o2cb 配置(0)
暂无评论
H3C UIS 超融合平台的存储池状态变成“不活动”,通常意味着存储服务已停止,这会直接影响所有关联虚拟机的运行。请务必先评估业务影响,避免在原因不明时进行高危操作。
处理这类问题的关键在于系统性排查,因为导致“存储池不活动”的原因多样。下面是一个完整的故障排查与处理路径。
查看平台“告警”与“日志”:从UIS管理平台的“监控”或“系统”模块入手,查看是否有针对存储池、主机或磁盘的显式告警,以及var/log/fsm/fsm_core.log等关键存储日志中的错误信息。
检查后端存储网络:存储池依赖各节点间的稳定通信。登录到所有主机节点,相互执行ping命令测试存储网(通常是万兆网)IP的连通性。
检查节点与硬件状态:检查“计算”或“主机”模块,确认参与该存储池的所有主机节点都处于“在线”状态。同时确认所有物理磁盘在UIS管理界面中的状态是“正常/在线”,而不是“故障/脱机/丢失”。
后台Ceph状态检查:通过SSH登录任一正常节点,执行关键Ceph命令来快速获取集群健康状态:
ceph -s:查看集群整体状态,关注 health 是否为 HEALTH_OK。
ceph osd tree:查看所有OSD是否都处于 up 状态。
ceph osd df:查看各OSD的利用率是否达到上限,空间占满可能导致故障。
根据初步排查结果,常见的原因和解决方案可分为以下几种场景:
| 可能原因 | 排查方法 | 解决方案 |
|---|---|---|
| 物理硬盘故障 | 前文第3步中,若存储池中有物理磁盘状态为“故障/脱机/丢失”。 | 硬盘有冗余保护:更换故障硬盘(支持热插拔),系统将自动开始数据重建。 硬盘无冗余保护:切勿操作!立即联系H3C技术支持。 |
| 存储网络异常 | 前文第4步中,如存在ping不通或丢包、交换机端口报错。 | 检查物理链路(网线/光模块),检查存储网卡及交换机端口的配置。 |
| 共享文件系统配置冲突 | 检查o2cb配置一致性:对比正常节点与故障节点的/etc/default/o2cb文件,确保OCFS2集群服务配置完全一致。 | 如果发现配置文件不一致(如心跳阈值等参数),使用vim手动修改,然后执行systemctl restart o2cb重启服务。 |
| 服务器节点异常 | 前文第3步中,若有主机节点状态为“离线/失联”,或UIS平台报“心跳丢失”。 | 尝试通过iBMC等管理口安全重启该主机-1。若节点无法恢复且数据有冗余保护,需在工程师指导下从存储池中安全移除。 |
| 缓存/电池异常 | 后台检查控制器报警提示“Cache Error”、“No-Battery Write Cache: Disabled”等问题。 | 执行/opt/MegaRAID/storcli/storcli64 /c0/vall set pdcache=off命令以重新启用写缓存。 |
| 元数据损坏/脑裂 | 经过上述排查,所有硬件、网络、配置等均正常,但存储池仍无法激活。 | 此情况最复杂,切勿尝试“强制激活”操作,必须立即联系H3C技术支持,由专家介入处理。 |
(0)
暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论