Del或 F2键进入 BIOS 设置。Advanced(高级) -> 找到阵列卡(如 Smart Array 或 MegaRAID)配置菜单。Configure Controller Setting(配置控制器设置)的选项。Modify Expander Minimum Scan Duration(修改扩展器最小扫描持续时间),将其默认值修改为 20 或更大数值(单位为秒)。SEL_sensor(系统事件日志传感器)触发的记录。Log area reset(日志区域重置),这通常意味着服务器的带外管理芯片(iLO)经历过重启。
暂无评论
先把结论说清楚:
R4900 G3 反复报 Drive fault /disk missing,2 分钟自动恢复,90% 是 硬盘接触不良 / 背板 / 线缆 / 电源不稳,其次是 硬盘本身快坏了,少数是 RAID 卡 / 固件 bug。下面按从易到难给你一套现场能直接做的排查解决步骤。
一、先抓关键信息(HDM/iLO)
登录 HDM(iLO)→ 信息 → 事件日志 / 存储日志
看是固定 某一个槽位(如 Slot 5) 反复 missing,还是随机槽位。
记录:
故障槽位号(Slot X)
硬盘型号(HDD/SSD、SAS/SATA)
告警频率、是否高负载 / 高温时更频繁
二、最常见:接触不良 / 背板(现场最快见效)
1)物理重新插拔(必做)
服务器不关电(支持热插拔),把报故障的盘拔出:
看金手指是否发黑、氧化、脏污
用干净橡皮 / 酒精棉擦干净
插回,用力推到底、扣紧拉手
观察 24 小时:不再反复跳,就是接触不良。
2)交叉测试(区分盘 / 背板)
把故障槽位的盘 → 换到好的空槽位
拿一块确定正常的同类型盘 → 插到原故障槽位
现象判断:
故障跟着硬盘走 → 硬盘本身快挂了(SMART 坏 / 固件问题)
故障固定在原槽位 → 背板 / 该槽位电路问题
三、硬盘本身问题(SMART / 寿命到)
1)HDM 看硬盘健康
HDM → 存储 → 物理硬盘 → 看 SMART 状态、Bad sectors、Predictive failure。
2)系统内查 SMART(Linux 示例)
bash
运行
smartctl -a /dev/sdb
重点看:
Reallocated_Sector_Ct(重分配扇区)>0
Pending_Sector(待映射坏道)>0
Uncorrectable_Error(不可纠正错误)>0
只要有一项不为 0,就是硬盘物理老化 / 坏道,直接更换。
四、背板 / 线缆 / 电源(反复掉盘高发)
R4900 G3 是2.5 寸背板,多盘位时容易出现:
背板接口虚焊 / 老化
背板供电不稳(高负载掉盘)
机箱震动导致接触时好时坏
排查
看机房:机柜是否震动、服务器是否放平稳
换背板:如果交叉测试确定槽位固定故障,基本就是背板损坏,需要报修换背板。
电源:多盘高负载时掉盘,检查电源是否老化、功率不足、12V 波动大。
五、RAID 卡 / 固件 bug(老版本常见)
1)查看 RAID 卡固件
HDM → 存储 → RAID 控制器 → 看固件版本。
2)升级固件(重要!)
R4900 G3 老版本 RAID 卡固件确实有误报 disk missing、间歇性掉盘bug。
去 H3C 官网下载对应型号的:
RAID 卡固件
HDM 固件
BIOS
全部升级到最新正式版,很多反复掉盘问题直接解决。
六、临时处理与数据安全
如果是RAID1/5/10:单盘反复掉,先备份数据,尽快换盘 / 修背板
如果是RAID0:立即备份,这种掉盘很容易数据全丢
不要频繁拔插,避免阵列彻底崩溃
七、一句话总结给客户 / 领导
这种2 分钟自动恢复的 Drive fault/disk missing,优先怀疑:
硬盘接触不良(重新插拔清洁)
硬盘老化坏道(SMART 异常→换盘)
背板槽位故障(交叉测试定位→换背板)
RAID 卡 / HDM 固件旧(升级到最新)
暂无评论
smartctl)查看硬盘的 SMART 状态。Reallocated_Sector_Ct(重映射扇区数)、Current_Pending_Sector(当前待映射扇区)等属性。如果这些数值不为 0 且在持续增长,说明硬盘已经产生大量物理坏道,必须立刻更换。暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论