问

UIS超融合提示机械硬盘故障

UIS超融合

2026-07-02提问

0关注
0收藏，272浏览

zhiliao_UlHDs

zhiliao_UlHDs 零段

粉丝：0人关注：0人

问题描述：

UIS超融合服务器单台服务器中机械硬盘提示故障，但是在一体机的管理卡中检查没有出现机械硬盘出现故障，那我的硬盘到底是坏了还是没有坏，要是没有故障该如何恢复

2 个回答

按时间按赞数

明月清风

明月清风知了小白

粉丝：0人关注：0人

感觉是坏了，可以打个400确认下

暂无评论

zhiliao_GeOM0O

zhiliao_GeOM0O 九段

粉丝：23人关注：2人

一、先回答核心疑问：硬盘到底有没有坏？
两种状态不一致的底层原理
HDM（服务器硬件管理卡）只读取RAID 卡 / 背板硬件层、硬盘 SMART 硬件健康信息；
UIS 平台告警来自分布式存储层（Ceph）IO 读写检测，两套独立检测体系，出现不一致分两类情况：
硬盘存在隐性硬件故障（高风险，优先判定）
HDM 只识别硬盘致命硬件故障（掉盘、通电失败、大量不可校正坏道）；
机械硬盘出现零星坏道、IO 卡顿、延迟突增、重映射扇区时，SMART 暂时没达到 HDM 告警阈值，但 Ceph 读写时频繁 IO 超时，直接标记磁盘异常、隔离 OSD 并上报告警。
→ 硬盘存在硬件隐患，不能当作完全正常，随时可能彻底离线。
纯逻辑 / 缓存误告警（低风险）
无任何 SMART 错误、无 IO 报错，仅 UIS 缓存 / 磁盘元数据错乱、进程异常、瞬时存储私网波动触发临时告警，硬件无损伤。
快速判定硬盘好坏四步（按顺序执行）
1）HDM 深度查看硬盘 SMART、RAID 卡日志
进入 HDM Web → 存储管理 → 选中故障硬盘：
查看 SMART 信息：重点看重映射扇区5、当前待映射197、不可校正扇区198，任意数值大于 0 = 硬盘有坏道硬件损伤；
查看 RAID 卡事件日志：有无medium error、IO timeout、drive slow介质读写错误；
执行硬盘短自检 Short Test，自检失败 = 硬件故障。
2）CVK 节点底层查看磁盘硬件状态
SSH 登录故障节点 CVK，替换sdb为故障盘符：
bash
运行
# 1. 查看硬盘SMART完整信息
smartctl -a /dev/sdb
# 2. 查看RAID卡磁盘底层状态（9361/9300卡）
/opt/MegaRAID/storcli/storcli64 /c0 show all
# 3. 查看系统内核硬盘IO报错（有无硬件读写报错）
dmesg | grep sdX
# 出现blkdev error、I/O error、sector xxx 代表硬盘物理读写异常
3）查看 Ceph 存储日志，确认告警触发根因
bash
运行
# 查看OSD异常日志
cat /var/log/ceph/ceph-osd.*.log | grep -i slow
cat /var/log/ceph/ceph-osd.*.log | grep -i error
日志出现slow request、disk io stall、read/write failed → 硬盘 IO 性能衰减 / 坏道；
仅瞬时osd heartbeat timeout无磁盘报错 → 网络 / 进程临时波动。
4）物理硬件巡检
硬盘故障灯是否橙红常亮；
硬盘有无异响、震动异常；
硬盘托架背板金手指有无氧化、松动，重新插拔硬盘测试。
判定结论
SMART 有坏道计数 /dmesg 存在 IO 报错 / RAID 卡介质错误：硬盘硬件损坏，必须更换，不能消除告警继续使用；
SMART 全 0、无内核 IO 报错、仅瞬时心跳超时：硬盘硬件正常，属于 UIS 平台逻辑误告警，可重置清除。
二、硬盘硬件无故障：恢复清除 UIS 磁盘故障告警步骤
前置检查
存储集群状态正常，ceph -s 无 OSD down、无 PG 异常，数据副本完整。
步骤 1：前台界面校正磁盘信息（最简操作）
UIS 管理平台 → 存储 → 主机管理 → 选中故障服务器；
进入磁盘标签，右上角点击同步磁盘，右下角点击校正磁盘信息；
刷新页面，观察磁盘故障告警是否消失；
若界面磁盘仍显示异常，执行手动刷新命令。
步骤 2：CVK 后台刷新磁盘元数据
bash
运行
# 刷新全节点磁盘硬件信息
uisadm disk refresh
# 校正磁盘状态数据库
uisadm disk correct
# 查看磁盘当前识别状态
uisadm disk list -a
步骤 3：若 OSD 被隔离，重新拉起磁盘 OSD
平台磁盘界面找到异常盘，点击启用磁盘；
后台查看 OSD 状态：ceph osd tree；
OSD 若被标记 out，执行恢复：
bash
运行
ceph osd reweight osd.XX 1
ceph osd unout osd.XX
等待数据均衡完成，告警自动消除。
步骤 4：终极清除缓存（以上无效时）
进入节点维护模式，避免均衡干扰：
bash
运行
uisadm enter-maintenance -n 节点名称
重启存储监控服务，刷新全局硬件缓存；
退出维护模式，刷新前台页面验证。
三、硬盘存在硬件隐患（SMART 有坏道 / IO 报错）标准处理流程
不能直接清除告警，会存在数据丢失风险，标准换盘流程：
UIS 前台磁盘页面选中故障硬盘 → 更换磁盘；
等待数据完整迁移完成，集群数据健康度 100%；
下架故障机械硬盘，插入同规格新硬盘；
平台自动识别新盘，自动重建 OSD、数据均衡；
均衡完成后告警消除。
四、常见不一致告警诱因汇总
机械硬盘隐性坏道（最常见）：HDM 告警阈值高，少量坏道不触发硬件告警，但 Ceph 读写延迟超标直接报故障；
瞬时存储私网抖动：OSD 心跳超时，临时标记磁盘异常，硬件无问题；
UIS 管理缓存未刷新：HDM 硬件状态更新后，平台未同步磁盘状态；
RAID 卡固件老旧：硬盘 IO 错误上报机制不完善，硬件层不记录轻微读写延迟；
背板 / 托架接触不良：硬盘偶尔掉速，底层无硬件故障标记，上层存储持续 IO 报错；
CVK 系统内核、UIS 版本 BUG：老版本存在磁盘状态同步缺陷，升级 UIS 可根治。
五、运维建议
机械硬盘只要 SMART 出现任意重映射 / 待映射扇区，直接更换，不要消除告警带病运行；
定期同步升级 HDM、RAID 卡固件、UIS 平台版本，减少状态同步不一致 BUG；
出现此类告警先抓smartctl、dmesg、ceph osd日志判断硬件好坏，不要直接清除告警掩盖硬件隐患；
存储集群开启多副本，降低单盘故障数据丢失风险。

暂无评论

编辑答案

分享扩散:

➤

网站相关: 关于我们; 服务条款; 隐私政策; 帮助中心; 经验与权限; 积分规则

联系我们: 联系我们; 建议反馈

常用链接: 标杆的神器下载

关注我们: H3C官网; 新华三服务公众号; 安仔远程运维服务; 新华三商城

内容许可: 除特别说明外，用户内容均可采用知识共享署名-相同方式共享3.0中国大陆许可协议进行许可

本图标版权归新华三集团所有，仅限本社区使用，切勿用做商业目的，违者必究

浙ICP备09064986号-1 浙公网安备 33010802004416号

✖

亲~登录后才可以操作哦!

确定

✖

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

✖

你的邮箱还未认证，请认证邮箱或绑定手机后进行当前操作

✖

侵犯我的权益 >

对根叔社区有害的内容 >

辱骂、歧视、挑衅等（不友善）

侵犯我的权益

泄露了我的隐私 >

侵犯了我企业的权益 >

抄袭了我的内容 >

诽谤我 >

辱骂、歧视、挑衅等（不友善）

骚扰我

泄露了我的隐私

您好，当您发现根叔知了上有泄漏您隐私的内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱，我们会尽快处理。

1. 您认为哪些内容泄露了您的隐私？（请在邮件中列出您举报的内容、链接地址，并给出简短的说明）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）

侵犯了我企业的权益

您好，当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱，我们会在审核后尽快给您答复。

1. 您举报的内容是什么？（请在邮件中列出您举报的内容和链接地址）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）
3. 是哪家企业？（营业执照，单位登记证明等证件）
4. 您与该企业的关系是？（您是企业法人或被授权人，需提供企业委托授权书）

我们认为知名企业应该坦然接受公众讨论，对于答案中不准确的部分，我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

原文链接或出处

诽谤我

您好，当您发现根叔知了上有诽谤您的内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱，我们会尽快处理。

1. 您举报的内容以及侵犯了您什么权益？（请在邮件中列出您举报的内容、链接地址，并给出简短的说明）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）

我们认为知名企业应该坦然接受公众讨论，对于答案中不准确的部分，我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

垃圾广告信息

色情、暴力、血腥等违反法律法规的内容

政治敏感

不规范转载 >

辱骂、歧视、挑衅等（不友善）

骚扰我

诱导投票

不规范转载

举报说明

产品线		搜索取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式	默认策略匹配全词匹配整句

UIS超融合提示机械硬盘故障

问题描述：

编辑答案

提出建议