服务器前面板指示灯亮琥珀色(Amber),是一种比较常见的状态,通常表示系统遇到了非致命性的硬件问题,处于性能降级或冗余丢失的状态。
简单来说,系统检测到了一个硬件问题,但服务器仍在运行,提示你需要尽快介入排查。根据你的描述,VMware传感器显示“其他 red”,结合它“存储服务器”的身份,问题很可能出在存储子系统(如硬盘、阵列卡)或散热风扇上。
要找到确切原因,最直接有效的方法就是通过 iLO 5 的Web管理页面来诊断。
你提到iLO地址丢失,可以通过下面的步骤来恢复:
重置 iLO:在服务器前面板上,长按 UID 按钮(通常标记为“○”或“UID”)20秒以上,直至所有风扇高速转动后恢复,即可重置iLO。
获取IP地址:重置后,iLO会尝试通过DHCP获取IP。你可以通过以下方式查看IP地址:
在服务器开机自检画面中查看。
使用iLO Discovery Utility等工具扫描。
登录 Web 界面:在浏览器中输入获取到的IP地址,使用服务器前部“i”标签上贴纸的默认账户密码登录。
登录 iLO 5 后,按以下路径检查,能找到明确的故障点:
健康总览 (Health Summary)
路径:System Information → Summary
这里会汇总所有子系统状态,可快速定位到是哪个大模块报错(Degraded/Redundancy Loss)。
存储子系统 (Storage) —— 重点排查
路径:System Information → Storage
重点检查以下关键指标:
控制器 (Smart Array):状态必须为 OK。若为 Degraded 或 Unknown,通常是固件不兼容或控制器故障。
物理硬盘 (Physical Drives):所有硬盘状态必须是 OK。任何硬盘显示 Degraded、Predictive Failure 或亮起琥珀色灯,都说明该硬盘即将或已经故障。
阵列逻辑盘 (Logical Drives):状态为 OK 表示正常,若为 Failed 或 Rebuilding 则阵列存在问题。
其他关键子系统
路径:Power & Thermal → Fans / Power
风扇 (Fans):确认所有风扇状态为 OK,无冗余丢失警告。
电源 (Power Supplies):检查所有电源模块状态,确认没有电源损坏或冗余失效。
如果以上页面未明确指出具体故障,可以查阅日志文件来寻找线索。
Active Health System (AHS) 日志(最详细)
路径:Information → Active Health System Log
重点过滤出发生故障时间附近的橙色(警告)或红色(严重)级别条目,里面通常会明确记录是哪个硬件传感器报告了问题。
iLO 事件日志 (iLO Event Log)
路径:Information → iLO Event Log
这个日志更侧重于iLO本身的管理事件和部分硬件变化。
第四步:故障应对与修复
根据定位到的故障点,采取相应措施:
硬盘问题:如果日志或状态灯指向某块硬盘,通常直接更换故障硬盘即可。
存储控制器/阵列卡问题:先尝试更新阵列卡和硬盘的固件版本。如果更新后问题依旧,可能需考虑更换阵列卡。
固件兼容性问题:若日志指向固件不兼容或已知Bug,建议的更新顺序是:优先更新 iLO 5 固件 → 再更新 BIOS (System ROM) → 最后更新阵列卡等其他固件。
做了排查,硬件健康状态都没问题,下载了AHS日志还在看,不过又发现一个ilo自身日志告警,和服务器亮灯的时间有点对得上,我放在下面评论了
做了排查,硬件健康状态都没问题,下载了AHS日志还在看,不过又发现一个ilo自身日志告警,和服务器亮灯的时间有点对得上,我放在下面评论了
🚨 HPE ProLiant DL380 Gen10 琥珀灯(黄灯)告警完整分析
先给你核心结论:服务器琥珀灯(UID / 健康灯闪黄灯)+ iLO 显示 BIOS/Hardware Health: Degraded + 日志 Chassis Transition to Non-critical from OK,问题出在「非关键硬件子系统降级」,不是致命故障,但需要排查根因;Other: red 是告警分类,不是硬件故障。
一、先看懂两张图的关键信息
1. 告警日志(第一张图)
OID 0.23.1.172 / SysHealth_Stat:HPE iLO 系统健康状态 MIB,对应「机框健康状态」
告警级别:警告(Warning):非致命故障,不影响业务运行,但需要关注
日志详情 Assert + Chassis Transition to Non-critical from OK:
机框健康状态从 OK(正常) 切换到 Non-critical(非关键 / 降级)
「Assert」表示告警触发,「De-assert」才是告警清除
时间 2019/11/26:这是历史告警,不是当前实时告警(当前时间是 2026 年),说明历史上出现过降级,当前可能已恢复,但告警未清除
2. iLO 健康概览(第二张图)
表格
子系统 状态 说明
Agentless Management Service Not available 无代理管理服务未就绪(不影响硬件健康,多为 iLO 服务临时异常)
BIOS/Hardware Health ⚠️ Degraded(降级) 核心告警源,说明硬件健康状态非 OK
Fan Redundancy Redundant 风扇冗余正常(双风扇 / 多风扇正常工作)
Fans OK 风扇硬件正常
Memory OK 内存正常
Network OK 网卡正常
Power Redundant 电源冗余正常
Power Supplies OK 电源硬件正常
Processors OK CPU 正常
Smart Storage Energy Pack OK 存储电池 / 电容正常
Storage OK 硬盘 / RAID 控制器正常
Temperatures OK 温度正常
二、核心问题定位:为什么是 Degraded?
1. 先区分「当前告警」和「历史告警」
日志时间是 2019 年,属于历史遗留告警,大概率是:
历史上出现过非关键故障(如风扇短暂停转、电源波动、BIOS 临时异常)
故障已恢复,但 iLO 告警未自动清除,导致健康状态仍显示 Degraded
你看到的「闪黄灯」,可能是历史告警未清除导致的状态残留,而非当前硬件故障
2. BIOS/Hardware Health: Degraded 常见根因(按概率排序)
🔹 1. 历史告警未清除(90% 概率)
iLO 会保留历史告警,即使故障恢复,健康状态不会自动恢复为 OK,需手动清除
对应日志 Chassis Transition to Non-critical from OK 是历史触发记录,当前无实时故障
🔹 2. 非关键硬件子系统降级(非致命)
DL380 Gen10 中,Non-critical 降级通常来自:
冗余组件降级:如双电源中一个短暂断电、风扇冗余临时丢失(但当前已恢复)
BIOS / 固件临时异常:如 BIOS 自检临时报错、iLO 固件重启导致状态异常
传感器误报:如电压 / 温度传感器短暂波动,触发告警后恢复
Agentless Management Service 异常:无代理管理服务未就绪,导致健康状态误判
🔹 3. 其他(Other)子系统告警(你提到的「其他 red」)
Other: red 是告警分类,不是硬件故障,对应「非标准硬件 / 软件告警」,常见于:
iLO 许可证过期 / 告警
服务器保修到期告警
第三方硬件 / 软件告警(如 VMware ESXi 主机告警)
非关键组件(如前面板 USB、内置 SD 卡)临时异常
三、iLO 5 排查健康状态的核心位置(按步骤来)
步骤 1:进入「System Information → Health」(你当前页面)
先确认所有子系统状态,重点看 BIOS/Hardware Health、Other 分类
点击 BIOS/Hardware Health 右侧的 Degraded,进入详细健康日志
步骤 2:查看「Active Alerts(活动告警)」和「Event Log(事件日志)」
路径:iLO 首页 → System Log → IML (Integrated Management Log)
这是服务器硬件事件日志,记录所有硬件告警 / 故障
重点筛选:Warning/Degraded 级别的日志,看是否有当前未清除的告警
若日志全是 2019 年的历史记录,说明是历史告警残留
路径:iLO 首页 → System Information → Health → Active Alerts
查看是否有当前活动告警,若为空,说明告警已恢复,仅状态未更新
步骤 3:检查「BIOS/UEFI 设置」和「固件版本」
路径:iLO 首页 → System Utilities → BIOS/Platform Configuration (RBSU)
检查 System Options → Health Status,确认是否有手动设置的告警阈值
检查 Power Management → Power Settings,确认电源 / 风扇策略正常
路径:iLO 首页 → Firmware & OS Software
确认 iLO 5 固件版本、BIOS 版本、阵列卡固件版本是否为最新
旧版本固件可能存在健康状态误报、告警不清除的 BUG
步骤 4:检查「Agentless Management Service」
路径:iLO 首页 → System Information → Management
确认 Agentless Management Service 状态为 OK
若为 Not available,重启 iLO 服务(iLO 首页 → Reset iLO)即可恢复
步骤 5:检查「存储 / 电池 / 冗余组件」
路径:iLO 首页 → Storage
确认 Smart Array 阵列卡状态、硬盘状态、Smart Storage Energy Pack 状态(你这里显示 OK)
路径:iLO 首页 → Power & Thermal
确认电源、风扇、温度传感器状态(你这里显示 OK)
重点看 Fan Redundancy、Power Redundancy 是否为 Redundant
四、现场可直接执行的修复步骤(按优先级)
1. 清除历史告警,恢复健康状态(最快解决)
登录 iLO 5 → 进入 System Log → IML
点击 Clear IML(清除集成管理日志),确认清除所有历史告警
重启 iLO 服务(Reset iLO),等待 5 分钟
回到 Health 页面,查看 BIOS/Hardware Health 是否恢复为 OK
观察服务器琥珀灯是否熄灭(若熄灭,说明是历史告警残留)
2. 升级固件,修复误报 BUG
升级 iLO 5 到最新版本(DL380 Gen10 推荐 iLO 5 v2.78+)
升级 BIOS/UEFI 到最新版本,修复健康状态检测 BUG
升级 Smart Array 阵列卡固件,避免存储相关误告警
3. 排查当前活动告警(若清除后仍 Degraded)
进入 Active Alerts,查看是否有未清除的当前告警
重点检查:
iLO 许可证过期:若许可证到期,会触发健康状态降级,需重新激活
服务器保修到期:部分机型会触发保修到期告警,导致状态降级
非关键组件异常:如内置 SD 卡、USB 设备、前面板指示灯异常
针对具体告警,执行对应修复(如重新激活许可证、更换异常组件)
4. 重启服务器,彻底恢复状态
若清除告警、重启 iLO 后仍 Degraded,执行服务器冷重启(断电 5 分钟后重新上电)
冷重启会重置所有硬件传感器,清除临时状态异常,恢复健康状态
五、iLO 5 健康状态检查清单(验收标准)
✅ 核心子系统状态:
BIOS/Hardware Health → OK
Fan Redundancy → Redundant
Power Redundancy → Redundant
Memory/Processors/Storage/Temperatures → OK
✅ 日志状态:
Active Alerts → 无活动告警
IML → 无未清除的 Warning/Critical 日志
琥珀灯(健康灯)→ 熄灭(常亮绿灯)
✅ 服务状态:
Agentless Management Service → OK
iLO 5 固件 / BIOS 版本 → 最新
六、总结
核心结论:你这台 DL380 Gen10 的黄灯是历史告警未清除导致的状态残留,当前硬件无致命故障,所有核心子系统(CPU / 内存 / 电源 / 风扇 / 存储)均正常
最快解决:清除 IML 日志 + 重启 iLO,即可恢复健康状态,熄灭黄灯
iLO 5 排查关键:重点看 IML 事件日志、Active Alerts、BIOS/Hardware Health 三个位置,定位告警根因
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明