一、先回答核心疑问:硬盘到底有没有坏?
两种状态不一致的底层原理
HDM(服务器硬件管理卡)只读取RAID 卡 / 背板硬件层、硬盘 SMART 硬件健康信息;
UIS 平台告警来自分布式存储层(Ceph)IO 读写检测,两套独立检测体系,出现不一致分两类情况:
硬盘存在隐性硬件故障(高风险,优先判定)
HDM 只识别硬盘致命硬件故障(掉盘、通电失败、大量不可校正坏道);
机械硬盘出现零星坏道、IO 卡顿、延迟突增、重映射扇区时,SMART 暂时没达到 HDM 告警阈值,但 Ceph 读写时频繁 IO 超时,直接标记磁盘异常、隔离 OSD 并上报告警。
→ 硬盘存在硬件隐患,不能当作完全正常,随时可能彻底离线。
纯逻辑 / 缓存误告警(低风险)
无任何 SMART 错误、无 IO 报错,仅 UIS 缓存 / 磁盘元数据错乱、进程异常、瞬时存储私网波动触发临时告警,硬件无损伤。
快速判定硬盘好坏四步(按顺序执行)
1)HDM 深度查看硬盘 SMART、RAID 卡日志
进入 HDM Web → 存储管理 → 选中故障硬盘:
查看 SMART 信息:重点看 重映射扇区5、当前待映射197、不可校正扇区198,任意数值大于 0 = 硬盘有坏道硬件损伤;
查看 RAID 卡事件日志:有无medium error、IO timeout、drive slow介质读写错误;
执行硬盘短自检 Short Test,自检失败 = 硬件故障。
2)CVK 节点底层查看磁盘硬件状态
SSH 登录故障节点 CVK,替换sdb为故障盘符:
bash
运行
# 1. 查看硬盘SMART完整信息
smartctl -a /dev/sdb
# 2. 查看RAID卡磁盘底层状态(9361/9300卡)
/opt/MegaRAID/storcli/storcli64 /c0 show all
# 3. 查看系统内核硬盘IO报错(有无硬件读写报错)
dmesg | grep sdX
# 出现blkdev error、I/O error、sector xxx 代表硬盘物理读写异常
3)查看 Ceph 存储日志,确认告警触发根因
bash
运行
# 查看OSD异常日志
cat /var/log/ceph/ceph-osd.*.log | grep -i slow
cat /var/log/ceph/ceph-osd.*.log | grep -i error
日志出现slow request、disk io stall、read/write failed → 硬盘 IO 性能衰减 / 坏道;
仅瞬时osd heartbeat timeout无磁盘报错 → 网络 / 进程临时波动。
4)物理硬件巡检
硬盘故障灯是否橙红常亮;
硬盘有无异响、震动异常;
硬盘托架背板金手指有无氧化、松动,重新插拔硬盘测试。
判定结论
SMART 有坏道计数 /dmesg 存在 IO 报错 / RAID 卡介质错误:硬盘硬件损坏,必须更换,不能消除告警继续使用;
SMART 全 0、无内核 IO 报错、仅瞬时心跳超时:硬盘硬件正常,属于 UIS 平台逻辑误告警,可重置清除。
二、硬盘硬件无故障:恢复清除 UIS 磁盘故障告警步骤
前置检查
存储集群状态正常,ceph -s 无 OSD down、无 PG 异常,数据副本完整。
步骤 1:前台界面校正磁盘信息(最简操作)
UIS 管理平台 → 存储 → 主机管理 → 选中故障服务器;
进入磁盘标签,右上角点击同步磁盘,右下角点击校正磁盘信息;
刷新页面,观察磁盘故障告警是否消失;
若界面磁盘仍显示异常,执行手动刷新命令。
步骤 2:CVK 后台刷新磁盘元数据
bash
运行
# 刷新全节点磁盘硬件信息
uisadm disk refresh
# 校正磁盘状态数据库
uisadm disk correct
# 查看磁盘当前识别状态
uisadm disk list -a
步骤 3:若 OSD 被隔离,重新拉起磁盘 OSD
平台磁盘界面找到异常盘,点击启用磁盘;
后台查看 OSD 状态:ceph osd tree;
OSD 若被标记 out,执行恢复:
bash
运行
ceph osd reweight osd.XX 1
ceph osd unout osd.XX
等待数据均衡完成,告警自动消除。
步骤 4:终极清除缓存(以上无效时)
进入节点维护模式,避免均衡干扰:
bash
运行
uisadm enter-maintenance -n 节点名称
重启存储监控服务,刷新全局硬件缓存;
退出维护模式,刷新前台页面验证。
三、硬盘存在硬件隐患(SMART 有坏道 / IO 报错)标准处理流程
不能直接清除告警,会存在数据丢失风险,标准换盘流程:
UIS 前台磁盘页面选中故障硬盘 → 更换磁盘;
等待数据完整迁移完成,集群数据健康度 100%;
下架故障机械硬盘,插入同规格新硬盘;
平台自动识别新盘,自动重建 OSD、数据均衡;
均衡完成后告警消除。
四、常见不一致告警诱因汇总
机械硬盘隐性坏道(最常见):HDM 告警阈值高,少量坏道不触发硬件告警,但 Ceph 读写延迟超标直接报故障;
瞬时存储私网抖动:OSD 心跳超时,临时标记磁盘异常,硬件无问题;
UIS 管理缓存未刷新:HDM 硬件状态更新后,平台未同步磁盘状态;
RAID 卡固件老旧:硬盘 IO 错误上报机制不完善,硬件层不记录轻微读写延迟;
背板 / 托架接触不良:硬盘偶尔掉速,底层无硬件故障标记,上层存储持续 IO 报错;
CVK 系统内核、UIS 版本 BUG:老版本存在磁盘状态同步缺陷,升级 UIS 可根治。
五、运维建议
机械硬盘只要 SMART 出现任意重映射 / 待映射扇区,直接更换,不要消除告警带病运行;
定期同步升级 HDM、RAID 卡固件、UIS 平台版本,减少状态同步不一致 BUG;
出现此类告警先抓smartctl、dmesg、ceph osd日志判断硬件好坏,不要直接清除告警掩盖硬件隐患;
存储集群开启多副本,降低单盘故障数据丢失风险。
暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论