• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

0赞ProLiant DL380 Gen10服务器闪黄灯

10小时前提问
  • 0关注
  • 0收藏,104浏览
粉丝:0人 关注:0人

问题描述:

存储服务器心跳灯琥珀色,vm查看主机情况:硬件传感器状态: 处理器 green,内存 green,风扇 green,电压 green,温度 green,功率 green,系统主板 green,电池 green,存储 green,其他 red,硬件运行情况显示:

ilo查看信息如下:

可以看出来什么原因吗?然后ilo5 应该看那些位置确认服务器健康状态呢?

4 个回答
粉丝:2人 关注:9人

现有信息不足,需补充iLO5事件日志、电源模块状态、PCIe扩展卡(网卡/HBA等)状态才能定位根因,大概率为电源冗余丢失、PCIe设备异常、前置外设告警三类。

iLO5(新华三服务器对应HDM操作逻辑一致)健康排查位置:
1. 首页健康概览:直接点击标红/黄的异常部件查看详情
2. 系统信息>事件日志:筛选严重/警告级日志,定位具体告警触发点
3. 「传感器」页:遍历所有传感器,排查状态非正常的条目,重点查电源、PCIe、外设类
4. 「电源/散热」页:确认电源模块运行、冗余状态是否正常
5. 「存储」页:排查RAID卡、硬盘是否有预测失效类隐性告警

提醒:如需修改配置或升级固件,先备份iLO日志及业务数据。

粉丝:10人 关注:1人

服务器前面板指示灯亮琥珀色(Amber),是一种比较常见的状态,通常表示系统遇到了非致命性的硬件问题,处于性能降级或冗余丢失的状态。

简单来说,系统检测到了一个硬件问题,但服务器仍在运行,提示你需要尽快介入排查。根据你的描述,VMware传感器显示“其他 red”,结合它“存储服务器”的身份,问题很可能出在存储子系统(如硬盘、阵列卡)或散热风扇上。

要找到确切原因,最直接有效的方法就是通过 iLO 5 的Web管理页面来诊断。

 

第一步:恢复并登录 iLO 5

你提到iLO地址丢失,可以通过下面的步骤来恢复:

  1. 重置 iLO:在服务器前面板上,长按 UID 按钮(通常标记为“○”或“UID”)20秒以上,直至所有风扇高速转动后恢复,即可重置iLO。

  2. 获取IP地址:重置后,iLO会尝试通过DHCP获取IP。你可以通过以下方式查看IP地址:

    • 在服务器开机自检画面中查看。

    • 使用iLO Discovery Utility等工具扫描。

  3. 登录 Web 界面:在浏览器中输入获取到的IP地址,使用服务器前部“i”标签上贴纸的默认账户密码登录。


 第二步:查看硬件健康状态

登录 iLO 5 后,按以下路径检查,能找到明确的故障点:

  1.  健康总览 (Health Summary)
    路径:System Information → Summary
    这里会汇总所有子系统状态,可快速定位到是哪个大模块报错(Degraded/Redundancy Loss)。

  2.  存储子系统 (Storage) —— 重点排查
    路径:System Information → Storage
    重点检查以下关键指标:

    • 控制器 (Smart Array):状态必须为 OK。若为 Degraded 或 Unknown,通常是固件不兼容或控制器故障。

    • 物理硬盘 (Physical Drives)所有硬盘状态必须是 OK。任何硬盘显示 DegradedPredictive Failure 或亮起琥珀色灯,都说明该硬盘即将或已经故障。

    • 阵列逻辑盘 (Logical Drives):状态为 OK 表示正常,若为 Failed 或 Rebuilding 则阵列存在问题。

  3. 其他关键子系统
    路径:Power & Thermal → Fans / Power

    • 风扇 (Fans):确认所有风扇状态为 OK,无冗余丢失警告。

    • 电源 (Power Supplies):检查所有电源模块状态,确认没有电源损坏或冗余失效。


 第三步:查阅详细事件日志

如果以上页面未明确指出具体故障,可以查阅日志文件来寻找线索。

  1. Active Health System (AHS) 日志(最详细)
    路径:Information → Active Health System Log
    重点过滤出发生故障时间附近的橙色(警告)或红色(严重)级别条目,里面通常会明确记录是哪个硬件传感器报告了问题。

  2. iLO 事件日志 (iLO Event Log)
    路径:Information → iLO Event Log
    这个日志更侧重于iLO本身的管理事件和部分硬件变化。

     第四步:故障应对与修复

根据定位到的故障点,采取相应措施:

  • 硬盘问题:如果日志或状态灯指向某块硬盘,通常直接更换故障硬盘即可。

  • 存储控制器/阵列卡问题:先尝试更新阵列卡和硬盘的固件版本。如果更新后问题依旧,可能需考虑更换阵列卡。

  • 固件兼容性问题:若日志指向固件不兼容或已知Bug,建议的更新顺序是:优先更新 iLO 5 固件 → 再更新 BIOS (System ROM) → 最后更新阵列卡等其他固件

做了排查,硬件健康状态都没问题,下载了AHS日志还在看,不过又发现一个ilo自身日志告警,和服务器亮灯的时间有点对得上,我放在下面评论了

zhiliao_x2zFkh 发表时间:10小时前 更多>>

做了排查,硬件健康状态都没问题,下载了AHS日志还在看,不过又发现一个ilo自身日志告警,和服务器亮灯的时间有点对得上,我放在下面评论了

zhiliao_x2zFkh 发表时间:10小时前
zhiliao_x2zFkh 知了小白
粉丝:0人 关注:0人

服务器硬件均正常,ilo日志发现这个

粉丝:9人 关注:2人

🚨 HPE ProLiant DL380 Gen10 琥珀灯(黄灯)告警完整分析
先给你核心结论:服务器琥珀灯(UID / 健康灯闪黄灯)+ iLO 显示 BIOS/Hardware Health: Degraded + 日志 Chassis Transition to Non-critical from OK,问题出在「非关键硬件子系统降级」,不是致命故障,但需要排查根因;Other: red 是告警分类,不是硬件故障。
一、先看懂两张图的关键信息
1. 告警日志(第一张图)
OID 0.23.1.172 / SysHealth_Stat:HPE iLO 系统健康状态 MIB,对应「机框健康状态」
告警级别:警告(Warning):非致命故障,不影响业务运行,但需要关注
日志详情 Assert + Chassis Transition to Non-critical from OK:
机框健康状态从 OK(正常) 切换到 Non-critical(非关键 / 降级)
「Assert」表示告警触发,「De-assert」才是告警清除
时间 2019/11/26:这是历史告警,不是当前实时告警(当前时间是 2026 年),说明历史上出现过降级,当前可能已恢复,但告警未清除
2. iLO 健康概览(第二张图)
表格
子系统 状态 说明
Agentless Management Service Not available 无代理管理服务未就绪(不影响硬件健康,多为 iLO 服务临时异常)
BIOS/Hardware Health ⚠️ Degraded(降级) 核心告警源,说明硬件健康状态非 OK
Fan Redundancy Redundant 风扇冗余正常(双风扇 / 多风扇正常工作)
Fans OK 风扇硬件正常
Memory OK 内存正常
Network OK 网卡正常
Power Redundant 电源冗余正常
Power Supplies OK 电源硬件正常
Processors OK CPU 正常
Smart Storage Energy Pack OK 存储电池 / 电容正常
Storage OK 硬盘 / RAID 控制器正常
Temperatures OK 温度正常
二、核心问题定位:为什么是 Degraded?
1. 先区分「当前告警」和「历史告警」
日志时间是 2019 年,属于历史遗留告警,大概率是:
历史上出现过非关键故障(如风扇短暂停转、电源波动、BIOS 临时异常)
故障已恢复,但 iLO 告警未自动清除,导致健康状态仍显示 Degraded
你看到的「闪黄灯」,可能是历史告警未清除导致的状态残留,而非当前硬件故障
2. BIOS/Hardware Health: Degraded 常见根因(按概率排序)
🔹 1. 历史告警未清除(90% 概率)
iLO 会保留历史告警,即使故障恢复,健康状态不会自动恢复为 OK,需手动清除
对应日志 Chassis Transition to Non-critical from OK 是历史触发记录,当前无实时故障
🔹 2. 非关键硬件子系统降级(非致命)
DL380 Gen10 中,Non-critical 降级通常来自:
冗余组件降级:如双电源中一个短暂断电、风扇冗余临时丢失(但当前已恢复)
BIOS / 固件临时异常:如 BIOS 自检临时报错、iLO 固件重启导致状态异常
传感器误报:如电压 / 温度传感器短暂波动,触发告警后恢复
Agentless Management Service 异常:无代理管理服务未就绪,导致健康状态误判
🔹 3. 其他(Other)子系统告警(你提到的「其他 red」)
Other: red 是告警分类,不是硬件故障,对应「非标准硬件 / 软件告警」,常见于:
iLO 许可证过期 / 告警
服务器保修到期告警
第三方硬件 / 软件告警(如 VMware ESXi 主机告警)
非关键组件(如前面板 USB、内置 SD 卡)临时异常
三、iLO 5 排查健康状态的核心位置(按步骤来)
步骤 1:进入「System Information → Health」(你当前页面)
先确认所有子系统状态,重点看 BIOS/Hardware Health、Other 分类
点击 BIOS/Hardware Health 右侧的 Degraded,进入详细健康日志
步骤 2:查看「Active Alerts(活动告警)」和「Event Log(事件日志)」
路径:iLO 首页 → System Log → IML (Integrated Management Log)
这是服务器硬件事件日志,记录所有硬件告警 / 故障
重点筛选:Warning/Degraded 级别的日志,看是否有当前未清除的告警
若日志全是 2019 年的历史记录,说明是历史告警残留
路径:iLO 首页 → System Information → Health → Active Alerts
查看是否有当前活动告警,若为空,说明告警已恢复,仅状态未更新
步骤 3:检查「BIOS/UEFI 设置」和「固件版本」
路径:iLO 首页 → System Utilities → BIOS/Platform Configuration (RBSU)
检查 System Options → Health Status,确认是否有手动设置的告警阈值
检查 Power Management → Power Settings,确认电源 / 风扇策略正常
路径:iLO 首页 → Firmware & OS Software
确认 iLO 5 固件版本、BIOS 版本、阵列卡固件版本是否为最新
旧版本固件可能存在健康状态误报、告警不清除的 BUG
步骤 4:检查「Agentless Management Service」
路径:iLO 首页 → System Information → Management
确认 Agentless Management Service 状态为 OK
若为 Not available,重启 iLO 服务(iLO 首页 → Reset iLO)即可恢复
步骤 5:检查「存储 / 电池 / 冗余组件」
路径:iLO 首页 → Storage
确认 Smart Array 阵列卡状态、硬盘状态、Smart Storage Energy Pack 状态(你这里显示 OK)
路径:iLO 首页 → Power & Thermal
确认电源、风扇、温度传感器状态(你这里显示 OK)
重点看 Fan Redundancy、Power Redundancy 是否为 Redundant
四、现场可直接执行的修复步骤(按优先级)
1. 清除历史告警,恢复健康状态(最快解决)
登录 iLO 5 → 进入 System Log → IML
点击 Clear IML(清除集成管理日志),确认清除所有历史告警
重启 iLO 服务(Reset iLO),等待 5 分钟
回到 Health 页面,查看 BIOS/Hardware Health 是否恢复为 OK
观察服务器琥珀灯是否熄灭(若熄灭,说明是历史告警残留)
2. 升级固件,修复误报 BUG
升级 iLO 5 到最新版本(DL380 Gen10 推荐 iLO 5 v2.78+)
升级 BIOS/UEFI 到最新版本,修复健康状态检测 BUG
升级 Smart Array 阵列卡固件,避免存储相关误告警
3. 排查当前活动告警(若清除后仍 Degraded)
进入 Active Alerts,查看是否有未清除的当前告警
重点检查:
iLO 许可证过期:若许可证到期,会触发健康状态降级,需重新激活
服务器保修到期:部分机型会触发保修到期告警,导致状态降级
非关键组件异常:如内置 SD 卡、USB 设备、前面板指示灯异常
针对具体告警,执行对应修复(如重新激活许可证、更换异常组件)
4. 重启服务器,彻底恢复状态
若清除告警、重启 iLO 后仍 Degraded,执行服务器冷重启(断电 5 分钟后重新上电)
冷重启会重置所有硬件传感器,清除临时状态异常,恢复健康状态
五、iLO 5 健康状态检查清单(验收标准)
✅ 核心子系统状态:
BIOS/Hardware Health → OK
Fan Redundancy → Redundant
Power Redundancy → Redundant
Memory/Processors/Storage/Temperatures → OK
✅ 日志状态:
Active Alerts → 无活动告警
IML → 无未清除的 Warning/Critical 日志
琥珀灯(健康灯)→ 熄灭(常亮绿灯)
✅ 服务状态:
Agentless Management Service → OK
iLO 5 固件 / BIOS 版本 → 最新
六、总结
核心结论:你这台 DL380 Gen10 的黄灯是历史告警未清除导致的状态残留,当前硬件无致命故障,所有核心子系统(CPU / 内存 / 电源 / 风扇 / 存储)均正常
最快解决:清除 IML 日志 + 重启 iLO,即可恢复健康状态,熄灭黄灯
iLO 5 排查关键:重点看 IML 事件日志、Active Alerts、BIOS/Hardware Health 三个位置,定位告警根因

编辑答案

你正在编辑答案

如果你要对问题或其他回答进行点评或询问,请使用评论功能。

分享扩散:

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作

举报

×

侵犯我的权益 >
对根叔社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明