问

超融合。服务器WEB页面提示机械硬盘故障，但是通过服务器HDM检查硬盘没有出现故障，该如何解决

UIS超融合

2026-06-08提问

0关注
0收藏，472浏览

zhiliao_UlHDs

zhiliao_UlHDs 零段

粉丝：0人关注：0人

问题描述：

超融合web也买你显示一块机械硬盘故障，但是服务器HDM检查硬盘没有故障该咋办

4 个回答

按时间按赞数

zhiliao_Gixe

zhiliao_Gixe 八段

粉丝：13人关注：9人

1. 确认告警来源：登录H3C超融合（HCI）平台，执行hci storage disk list查看平台侧硬盘状态，排除误告警；
2. 核对硬件状态：登录HDM，执行hdiscovery或查看硬盘SMART日志，确认硬件无故障；
3. 排查兼容性/阈值：检查超融合平台与硬盘固件是否匹配，若不兼容升级固件/平台；若告警阈值误设，调整存储告警规则；
4. 刷新状态：在超融合平台执行硬盘状态刷新，或重启存储节点存储服务（systemctl restart cvm-storaged）清除误告警。

暂无评论

刘浩存

刘浩存九段

粉丝：26人关注：1人

当超融合WEB页面提示机械硬盘故障，但服务器底层HDM（带外管理系统）检查正常时，通常是由于软件层面的误判、存储私网异常或RAID卡工作模式配置不正确引起的。建议按照以下步骤进行排查和处理：

1. 确认告警详情与业务影响

首先登录UIS管理平台，进入“告警中心”或“虚拟存储”页面，查看具体的告警信息。

如果是性能类告警：如提示“IO延时大”、“疑似慢盘”或“卡慢盘”，这可能是由于存储私网丢包、网络拥塞导致系统对磁盘响应超时产生的误报。若当前业务未受影响，可先观察；若影响业务，可在界面手动点击“隔离硬盘”进行处理。
如果是硬件状态类告警：如提示“发生IO错误”或“已确诊为卡慢盘”，则需进一步排查硬件连接和配置。

2. 检查RAID卡工作模式（关键排查点）

第三方服务器接入超融合平台时，极易因RAID卡工作模式不一致导致上层软件无法正确读取硬盘健康状态。

请对比BMC/HDM界面中的RAID配置与BIOS内的设置。确保所有数据盘的RAID卡工作模式均设置为 JBOD（而非RAID模式），且两端保持一致。如果模式不匹配，超融合平台可能会错误地将正常的磁盘判定为故障或离线。

3. 验证物理连接与后台识别状态

在确认配置无误后，可通过以下方式排除物理接触不良问题：

重新拔插测试：单块磁盘出现此类异常时，可尝试在机房将该硬盘拔出后重新插紧，或者将其拔出后插入其他正常主机的槽位，观察是否能被正常识别。
后台命令确认：登录该节点的操作系统后台，使用 lsblk 或 fdisk -l 命令查看新/旧盘的设备名是否被系统底层正常识别。若后台能识别但UI仍报错，多为软件元数据残留或缓存未刷新。

4. 联系官方技术支持介入

如果在完成上述排查后，WEB页面依然显示故障，或者伴随多块磁盘同时离线的情况，强烈建议立即联系厂商技术支持（如拨打 H3C 400热线）。工程师可以通过平台的“日志收集”功能抓取底层内核日志和IPMI日志，进行深度的故障定位与修复。

暂无评论

Reset_

Reset_ 四段

粉丝：0人关注：0人

可能是慢盘，如果是误隔离，可以重启一下osd服务，然后加入集群

暂无评论

zhiliao_GeOM0O

zhiliao_GeOM0O 九段

粉丝：23人关注：2人

故障分析 & 分步解决（UIS 超融合 + 服务器 HDM 硬盘告警不一致）

核心现象：UIS/CVM 管理界面报机械硬盘故障，服务器 HDM（iDRAC/HDM）硬件层面识别硬盘正常，属于上层虚拟化平台告警误报、状态不同步、RAID / 驱动 / 缓存 / 日志异常，并非硬件物理损坏，按从易到难排查修复即可。

一、先理清告警差异原因

HDM：直连服务器 RAID 卡、背板，读取硬件底层状态，结果最准，硬盘物理无坏道、无离线。
UIS/CVM：通过系统驱动、RAID 卡代理、节点状态采集、磁盘监控插件获取硬盘状态，容易出现状态缓存、采集异常、日志残留、RAID 逻辑告警，是本次问题根源。

二、分步排查 & 修复（按顺序执行，优先低风险操作）

步骤 1：确认全量告警，定位告警来源

1.1 UIS/CVM 侧查看详细告警

登录超融合 WEB，找到对应告警：

记录：故障硬盘槽位、盘符、告警原文、告警产生时间
查看：监控中心 → 告警日志、硬件状态 → 磁盘列表，确认硬盘是离线 / 预测失败 / 读写错误哪一类。

1.2 节点后台查看系统层硬盘 & RAID 状态（CVK 节点命令）

登录出问题的宿主机 CVK 系统，执行：

bash

运行

# 1. 查看系统识别磁盘、RAID卡基础信息
smartctl --scan
smartctl -a /dev/sdX  # sdX替换为告警硬盘设备名

# 2. 查看RAID卡状态（H3C服务器常用）
MegaCli64 -LDInfo -Lall -aALL
MegaCli64 -PDList -aALL  # 查看所有物理盘状态、Error计数

# 3. 查看系统磁盘读写错误日志
dmesg | grep -i error
cat /var/log/messages | grep -i disk

结果解读：
- 无硬件报错、RAID 盘状态UnBad、无介质错误 → 纯平台误报 / 状态不同步
- 存在少量读写报错、IO 超时 → 逻辑链路 / 接触 / RAID 缓存问题

步骤 2：清除残留告警 & 刷新状态（最高概率解决，优先做）

2.1 UIS WEB 端手动清除告警 + 刷新硬件状态

在 UIS 告警页面确认并清除当前硬盘故障告警；
进入「主机与集群」→ 选中故障节点 → 刷新硬件状态；
等待 5~10 分钟，观察是否重复弹出告警。

2.2 重启 UIS 硬件监控服务（节点侧，不中断业务）

CVK 节点执行，重启磁盘监控采集服务，修复状态缓存：

bash

运行

# 重启硬件监控服务（UIS/CVM通用）
systemctl restart imc-monitor
systemctl restart hwmonitor

操作后回到 WEB 查看硬盘状态，多数临时缓存异常可直接恢复。

步骤 3：RAID 卡层面修复（常见诱因：RAID 逻辑错误、计数溢出）

HDM 看硬盘正常，但 RAID 卡存在历史错误计数、临时校验异常，会被上层平台抓取为故障：

登录服务器 HDM WEB，进入「存储 → RAID 卡 → 物理磁盘」；
选中告警硬盘，执行操作：
- 清除磁盘错误计数 / 重置介质错误日志；
- 若磁盘有 Predictive Failure（预测故障）标记，确认无物理问题后，清除预测告警；
保存配置，返回 UIS 查看状态。

补充：部分 RAID 卡会累计历史 IO 错误，计数超标就持续上报告警，清零后即可恢复。

步骤 4：物理链路复位（接触不良导致间歇性上报）

硬盘背板、SATA/SAS 链路松动会出现「硬件识别正常、偶发 IO 异常」，触发平台告警：

业务低峰维护窗口操作，建议先做虚拟机迁移，清空该节点业务；
服务器正常关机断电（拔掉电源线，彻底放电 30 秒）；
拔出告警机械硬盘，重新插拔硬盘托架，确保卡扣卡紧；
上电开机，先看 HDM 硬盘状态，再登录 UIS 核对。

步骤 5：系统 / 驱动 / 版本问题（顽固告警处理）

5.1 检查 RAID 卡驱动、固件版本

老旧 RAID 卡固件、CVK 驱动存在兼容性 bug，导致状态上报错乱：

HDM 查看 RAID 卡固件版本；
对比 UIS 官方兼容列表，升级 RAID 卡固件至适配版本；
同步检查 CVK 系统、UIS 平台版本，补丁缺失也会引发监控异常。

5.2 区分「逻辑分区告警」和「物理硬盘告警」

部分场景：硬盘物理完好，但分区、文件系统损坏，UIS 判定为硬盘故障：

bash

运行

# 检查磁盘文件系统
fsck /dev/sdX1

修复文件系统错误后，刷新平台状态。

步骤 6：终极处理（以上操作无效）

硬盘离线重识别：HDM 中临时移除该物理盘，等待 1 分钟后重新上线；
替换槽位测试：把这块硬盘插到服务器其他空槽位，观察两个平台告警变化，排查背板槽位故障；
若更换槽位后告警消失：原硬盘槽位 / 背板异常；
若仍告警，但 HDM 始终正常：判定为UIS 监控插件 bug，临时屏蔽单盘告警（仅过渡，建议后续升级平台版本）。

三、关键避坑 & 总结

优先级判定：以 HDM 硬件状态为准，HDM 正常 = 硬盘无物理损坏，不用直接更换硬盘；
高频诱因排序：状态缓存/残留告警 > RAID错误计数溢出 > 链路接触不良 > 驱动/固件bug；
操作风险：
- 清告警、重启监控服务：无业务风险，可随时操作；
- 重新插拔硬盘、断电复位：必须维护窗口，建议迁移虚拟机；
长期建议：定期同步 UIS 平台、CVK 节点、RAID 卡固件到官方稳定版本，减少监控兼容问题。

暂无评论

编辑答案

分享扩散:

➤

网站相关: 关于我们; 服务条款; 隐私政策; 帮助中心; 经验与权限; 积分规则

联系我们: 联系我们; 建议反馈

常用链接: 标杆的神器下载

关注我们: H3C官网; 新华三服务公众号; 安仔远程运维服务; 新华三商城

内容许可: 除特别说明外，用户内容均可采用知识共享署名-相同方式共享3.0中国大陆许可协议进行许可

本图标版权归新华三集团所有，仅限本社区使用，切勿用做商业目的，违者必究

浙ICP备09064986号-1 浙公网安备 33010802004416号

✖

亲~登录后才可以操作哦!

确定

✖

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

✖

你的邮箱还未认证，请认证邮箱或绑定手机后进行当前操作

✖

侵犯我的权益 >

对根叔社区有害的内容 >

辱骂、歧视、挑衅等（不友善）

侵犯我的权益

泄露了我的隐私 >

侵犯了我企业的权益 >

抄袭了我的内容 >

诽谤我 >

辱骂、歧视、挑衅等（不友善）

骚扰我

泄露了我的隐私

您好，当您发现根叔知了上有泄漏您隐私的内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱，我们会尽快处理。

1. 您认为哪些内容泄露了您的隐私？（请在邮件中列出您举报的内容、链接地址，并给出简短的说明）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）

侵犯了我企业的权益

您好，当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱，我们会在审核后尽快给您答复。

1. 您举报的内容是什么？（请在邮件中列出您举报的内容和链接地址）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）
3. 是哪家企业？（营业执照，单位登记证明等证件）
4. 您与该企业的关系是？（您是企业法人或被授权人，需提供企业委托授权书）

我们认为知名企业应该坦然接受公众讨论，对于答案中不准确的部分，我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

原文链接或出处

诽谤我

您好，当您发现根叔知了上有诽谤您的内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱，我们会尽快处理。

1. 您举报的内容以及侵犯了您什么权益？（请在邮件中列出您举报的内容、链接地址，并给出简短的说明）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）

我们认为知名企业应该坦然接受公众讨论，对于答案中不准确的部分，我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

垃圾广告信息

色情、暴力、血腥等违反法律法规的内容

政治敏感

不规范转载 >

辱骂、歧视、挑衅等（不友善）

骚扰我

诱导投票

不规范转载

举报说明

产品线		搜索取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式	默认策略匹配全词匹配整句

超融合。服务器WEB页面提示机械硬盘故障，但是通过服务器HDM检查硬盘没有出现故障，该如何解决

问题描述：

1. 确认告警详情与业务影响

2. 检查RAID卡工作模式（关键排查点）

3. 验证物理连接与后台识别状态

4. 联系官方技术支持介入

故障分析 & 分步解决（UIS 超融合 + 服务器 HDM 硬盘告警不一致）

一、先理清告警差异原因

二、分步排查 & 修复（按顺序执行，优先低风险操作）

步骤 1：确认全量告警，定位告警来源

1.1 UIS/CVM 侧查看详细告警

1.2 节点后台查看系统层硬盘 & RAID 状态（CVK 节点命令）

步骤 2：清除残留告警 & 刷新状态（最高概率解决，优先做）

2.1 UIS WEB 端手动清除告警 + 刷新硬件状态

2.2 重启 UIS 硬件监控服务（节点侧，不中断业务）

步骤 3：RAID 卡层面修复（常见诱因：RAID 逻辑错误、计数溢出）

步骤 4：物理链路复位（接触不良导致间歇性上报）

步骤 5：系统 / 驱动 / 版本问题（顽固告警处理）

5.1 检查 RAID 卡驱动、固件版本

5.2 区分「逻辑分区告警」和「物理硬盘告警」

步骤 6：终极处理（以上操作无效）

三、关键避坑 & 总结

编辑答案

提出建议