1. 现象复盘
动作:执行 servicemag resume 1 19
→ 意图恢复该磁盘(位置 cage=1 slot=19)。
结果:servicemag status -d
显示重构失败。
磁盘检查:
showpdch -mov
:有 6 个 chunklet 残留,说明这块盘上还有不可迁移/不可用的物理数据块。
showpd
:硬盘 state = normal(逻辑上“正常”),但 unused 下的 unavail = 308,说明该盘上有 308 个 chunklet 已经不可用。
现场指示灯:该硬盘 故障灯常亮。
state = normal 并不一定代表物理健康,它只是 3PAR/Primera OS 对“是否分配在用”的一种标记。
unavail chunklet 存在(308 个),说明控制器已判定该盘部分物理区域无法读写,虽然 OS 还没把它整体标记为 failed。
重构失败 → 说明系统尝试把数据从该盘搬迁到其他健康盘,但遇到不可读的 chunklet(bad block / media error),所以数据迁移无法完成。
硬件告警(故障灯亮起)进一步确认 物理盘存在硬件级别问题。
换句话说:
👉 这块盘虽然 showpd 看着 “normal”,但其实已经进入 潜在坏盘/失效盘 状态。
确认告警日志
在 3PAR/Primera 上查看 showalert -d
或通过管理 GUI/SPOCC 确认该磁盘的告警代码(通常是 PD_xxx 类别)。
不要再强行 resume
因为有 chunklet 不可读,反复 resume 只会重复失败。
标记硬盘为 failed 并下线更换
正常流程是:
servicemag fail <cage> <slot>
(或 controlpd fail <pdid>
,不同版本命令略有差异)
确认系统自动开始 chunklet 重构 到 spare 磁盘。
联系厂家更换硬盘
确认现场告警后,开 SR 给 HPE/厂商,让他们提供 RMA 硬盘。
后续验证
showpd -failed
查看是否已标记为 failed。
showtask
跟踪重构进度,直到迁移完成。
“state=normal” 不等于健康,要结合 unavail chunklet 数量和故障灯判断。
重构失败 + unavail chunklet > 0 + 故障灯亮 = 物理盘损坏。
处理方式:fail 掉 → 触发重构 → 更换硬盘。
showalert -d没有相关告警日志
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
showalert -d没有相关告警日志