• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

UIS超融合提示机械硬盘故障

1天前提问
  • 0关注
  • 0收藏,62浏览
粉丝:0人 关注:0人

问题描述:

UIS超融合服务器单台服务器中机械硬盘提示故障,但是在一体机的管理卡中检查没有出现机械硬盘出现故障,那我的硬盘到底是坏了还是没有坏,要是没有故障该如何恢复

2 个回答
明月清风 知了小白
粉丝:0人 关注:0人

感觉是坏了,可以打个400确认下

暂无评论

粉丝:19人 关注:2人

一、先回答核心疑问:硬盘到底有没有坏?
两种状态不一致的底层原理
HDM(服务器硬件管理卡)只读取RAID 卡 / 背板硬件层、硬盘 SMART 硬件健康信息;
UIS 平台告警来自分布式存储层(Ceph)IO 读写检测,两套独立检测体系,出现不一致分两类情况:
硬盘存在隐性硬件故障(高风险,优先判定)
HDM 只识别硬盘致命硬件故障(掉盘、通电失败、大量不可校正坏道);
机械硬盘出现零星坏道、IO 卡顿、延迟突增、重映射扇区时,SMART 暂时没达到 HDM 告警阈值,但 Ceph 读写时频繁 IO 超时,直接标记磁盘异常、隔离 OSD 并上报告警。
→ 硬盘存在硬件隐患,不能当作完全正常,随时可能彻底离线。
纯逻辑 / 缓存误告警(低风险)
无任何 SMART 错误、无 IO 报错,仅 UIS 缓存 / 磁盘元数据错乱、进程异常、瞬时存储私网波动触发临时告警,硬件无损伤。
快速判定硬盘好坏四步(按顺序执行)
1)HDM 深度查看硬盘 SMART、RAID 卡日志
进入 HDM Web → 存储管理 → 选中故障硬盘:
查看 SMART 信息:重点看 重映射扇区5、当前待映射197、不可校正扇区198,任意数值大于 0 = 硬盘有坏道硬件损伤;
查看 RAID 卡事件日志:有无medium error、IO timeout、drive slow介质读写错误;
执行硬盘短自检 Short Test,自检失败 = 硬件故障。
2)CVK 节点底层查看磁盘硬件状态
SSH 登录故障节点 CVK,替换sdb为故障盘符:
bash
运行
# 1. 查看硬盘SMART完整信息
smartctl -a /dev/sdb
# 2. 查看RAID卡磁盘底层状态(9361/9300卡)
/opt/MegaRAID/storcli/storcli64 /c0 show all
# 3. 查看系统内核硬盘IO报错(有无硬件读写报错)
dmesg | grep sdX
# 出现blkdev error、I/O error、sector xxx 代表硬盘物理读写异常
3)查看 Ceph 存储日志,确认告警触发根因
bash
运行
# 查看OSD异常日志
cat /var/log/ceph/ceph-osd.*.log | grep -i slow
cat /var/log/ceph/ceph-osd.*.log | grep -i error
日志出现slow request、disk io stall、read/write failed → 硬盘 IO 性能衰减 / 坏道;
仅瞬时osd heartbeat timeout无磁盘报错 → 网络 / 进程临时波动。
4)物理硬件巡检
硬盘故障灯是否橙红常亮;
硬盘有无异响、震动异常;
硬盘托架背板金手指有无氧化、松动,重新插拔硬盘测试。
判定结论
SMART 有坏道计数 /dmesg 存在 IO 报错 / RAID 卡介质错误:硬盘硬件损坏,必须更换,不能消除告警继续使用;
SMART 全 0、无内核 IO 报错、仅瞬时心跳超时:硬盘硬件正常,属于 UIS 平台逻辑误告警,可重置清除。
二、硬盘硬件无故障:恢复清除 UIS 磁盘故障告警步骤
前置检查
存储集群状态正常,ceph -s 无 OSD down、无 PG 异常,数据副本完整。
步骤 1:前台界面校正磁盘信息(最简操作)
UIS 管理平台 → 存储 → 主机管理 → 选中故障服务器;
进入磁盘标签,右上角点击同步磁盘,右下角点击校正磁盘信息;
刷新页面,观察磁盘故障告警是否消失;
若界面磁盘仍显示异常,执行手动刷新命令。
步骤 2:CVK 后台刷新磁盘元数据
bash
运行
# 刷新全节点磁盘硬件信息
uisadm disk refresh
# 校正磁盘状态数据库
uisadm disk correct
# 查看磁盘当前识别状态
uisadm disk list -a
步骤 3:若 OSD 被隔离,重新拉起磁盘 OSD
平台磁盘界面找到异常盘,点击启用磁盘;
后台查看 OSD 状态:ceph osd tree;
OSD 若被标记 out,执行恢复:
bash
运行
ceph osd reweight osd.XX 1
ceph osd unout osd.XX
等待数据均衡完成,告警自动消除。
步骤 4:终极清除缓存(以上无效时)
进入节点维护模式,避免均衡干扰:
bash
运行
uisadm enter-maintenance -n 节点名称
重启存储监控服务,刷新全局硬件缓存;
退出维护模式,刷新前台页面验证。
三、硬盘存在硬件隐患(SMART 有坏道 / IO 报错)标准处理流程
不能直接清除告警,会存在数据丢失风险,标准换盘流程:
UIS 前台磁盘页面选中故障硬盘 → 更换磁盘;
等待数据完整迁移完成,集群数据健康度 100%;
下架故障机械硬盘,插入同规格新硬盘;
平台自动识别新盘,自动重建 OSD、数据均衡;
均衡完成后告警消除。
四、常见不一致告警诱因汇总
机械硬盘隐性坏道(最常见):HDM 告警阈值高,少量坏道不触发硬件告警,但 Ceph 读写延迟超标直接报故障;
瞬时存储私网抖动:OSD 心跳超时,临时标记磁盘异常,硬件无问题;
UIS 管理缓存未刷新:HDM 硬件状态更新后,平台未同步磁盘状态;
RAID 卡固件老旧:硬盘 IO 错误上报机制不完善,硬件层不记录轻微读写延迟;
背板 / 托架接触不良:硬盘偶尔掉速,底层无硬件故障标记,上层存储持续 IO 报错;
CVK 系统内核、UIS 版本 BUG:老版本存在磁盘状态同步缺陷,升级 UIS 可根治。
五、运维建议
机械硬盘只要 SMART 出现任意重映射 / 待映射扇区,直接更换,不要消除告警带病运行;
定期同步升级 HDM、RAID 卡固件、UIS 平台版本,减少状态同步不一致 BUG;
出现此类告警先抓smartctl、dmesg、ceph osd日志判断硬件好坏,不要直接清除告警掩盖硬件隐患;
存储集群开启多副本,降低单盘故障数据丢失风险。

暂无评论

编辑答案

你正在编辑答案

如果你要对问题或其他回答进行点评或询问,请使用评论功能。

分享扩散:

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作

举报

×

侵犯我的权益 >
对根叔社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明