• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

HPE DL580g10服务器运行中无响应,显示器黑屏

1天前提问
  • 0关注
  • 0收藏,38浏览
粉丝:0人 关注:3人

问题描述:

2台DL580g10服务器,安装了oracle linux(版本7.6),配置RAC,oracle 是19c。

最近几天两个节点的心跳网卡(igb,eno3和eno4),经常的up/down,甚至导致其中1个节点被踢出rac集群。

一个月以前,其中一个节点的服务器曾经发生过hung住的现象,就是服务器从外观显示正常,网卡,FC HBA,硬盘,电源等等都正常,而且没有故障灯亮,iLO中也没有报警出现。但是ping不通,该节点的业务中断,连接的显示器没有信号输出。直到将该服务器断电重启,才恢复正常。

linux日志文件中(/var/log/messages),故障这段时间是没有记录的。

昨天,那个故障节点又出现了一摸一样的问题(晚上22点多),当时在做igb网卡驱动的升级,步骤在make install之前,没有完成升级。也没有特别多的业务(主要业务在白天)。

igb用于RAC心跳,i40e用于业务。

igb升级前的版本是5.4.0,升级后的版本是5.12.3

另外还有一个问题。该双节点的服务器,大约1年前添加过内存,服务器断电升级内存之后启动,i40e网卡配置的team失效不好用了,最后改成了bond才恢复。

这种情况是服务器的硬件问题,还是其它的问题,如何排查呢

 

 

 

组网及组网描述:

iLO版本是2.33,BIOS 版本是v2.40,服务器设置的workload profile是general power efficient compute, power regulator mode:Dynamic power saving.

Linux的内核,uname -r的输出是4.14.35-1818.3.3.el7uek.x86_64

 

3 个回答
粉丝:8人 关注:0人

.一、核心问题分析:为什么服务器“假死”且无日志?

这是整个问题中最关键也最危险的信号。当一台服务器完全无响应、显示器无输出,但硬件指示灯正常、iLO无告警时,说明故障发生在比操作系统更深的层面——很可能在硬件初始化或CPU/内存子系统层面

这种“静默挂死”通常由以下原因引起:

  1. CPU缓存一致性错误:这是最符合你描述的可能性。当多个CPU核心访问同一内存地址时,缓存一致性协议(如MESI)负责协调。如果硬件或BIOS层面存在缺陷,可能导致协议死锁或总线超时,整个系统会瞬间冻结,操作系统来不及记录任何日志。HPE DL580 Gen10这类四路服务器对CPU间的一致性要求极高。

  2. PCIe总线故障:网卡(igb/i40e)、FC HBA都通过PCIe总线与CPU通信。如果总线链路不稳定或存在电气问题,可能导致DMA操作卡死,进而挂死整个系统。

  3. 内存故障的隐蔽表现:一年前添加内存后,i40e网卡的team模式失效(最终改用bond才恢复),这是一个重要线索。内存升级如果未严格遵循HPE的内存填充规则(如混用不同Rank的内存、未按顺序插槽安装),可能导致某些内存访问异常。这类问题在低负载时可能不显现,但在特定访问模式(如网卡DMA)下会触发。

  4. 电源管理问题:你当前的电源策略是Dynamic Power Saving,这可能导致CPU在负载变化时频繁切换C-state(深度睡眠状态)。在某些BIOS版本中,C-state切换与PCIe设备的中断响应存在兼容性问题,可能导致设备超时、系统无响应。



二、网卡频繁up/down与节点驱逐的关联

心跳网卡(igb)的频繁抖动直接触发了Oracle RAC的节点驱逐机制。RAC的CSS(Cluster Synchronization Services)进程通过网络心跳磁盘心跳双重机制监控节点健康。

当网络心跳在默认超时时间(约30秒)内持续丢失,CSS会判定该节点异常并将其踢出集群。而你观察到的网卡up/down正是心跳丢失的直接原因。

但需要追问:网卡up/down是“因”还是“果”?

  • 如果网卡驱动本身存在bug,可能导致链路状态误报或DMA卡死,引发网卡重置。

  • 更可能是:底层硬件(PCIe、CPU)的不稳定,导致网卡无法正常工作,驱动层检测到超时后被迫重置链路。

你在升级igb驱动时(尚未完成make install)触发了同样的挂死现象,这进一步印证了“硬件是根因”的判断——因为驱动升级过程本身会触发网卡的重置和重新初始化,这个过程对PCIe总线的稳定性是一个“压力测试”。如果总线或CPU层面存在隐患,这个操作就可能成为导火索。


三、系统排查方案(按优先级排序)

 第一优先级:获取故障时的诊断信息(NMI功能)

这是最重要的一步,必须在下次故障前准备好。

方案:通过iLO发送NMI(不可屏蔽中断)

HPE Gen10服务器支持通过iLO向操作系统发送NMI,强制触发内核崩溃转储(crash dump),从而捕获系统挂死瞬间的状态。

操作步骤:

  1. 提前安装kdump服务(Oracle Linux 7默认可能未安装):

    yum install kexec-tools
    systemctl enable kdump systemctl start kdump
  2. 配置crashkernel参数(如已配置可跳过):

    # 编辑/etc/default/grub,添加crashkernel=auto
    grub2-mkconfig -o /boot/grub2/grub.cfg
  3. 在系统挂死时:登录iLO Web界面 → 点击“系统信息” → 选择“电源与散热” → 点击“生成NMI”按钮。

  4. 分析生成的vmcore文件:使用crash工具分析内核转储,定位故障时的调用栈。

这个方法的优势在于:即使系统完全无响应、显示器无输出,只要iLO网络可达,就能触发转储,获取宝贵的诊断信息。


 第二优先级:检查BIOS/固件版本与配置

你的BIOS版本是v2.40,iLO版本是2.33。HPE ProLiant Gen10系列的固件更新较为频繁,建议立即检查是否有已知问题的修复。

重点关注以下设置调整:

配置项当前设置建议调整原因
Workload ProfileGeneral Power Efficient ComputeCustom避免预设电源策略引入的不确定因素
Power Regulator ModeDynamic Power SavingStatic High Performance 或 OS Control固定CPU性能,排除C-state切换导致的PCIe延迟
QPI/UPI Configuration未知检查是否启用“Cluster-on-Die”,如有则禁用某四路服务器的缓存一致性问题与此相关
PCIe ASPM未知禁用主动电源管理与某些PCIe设备存在兼容性问题
C-States未知设为 C0/C1(禁用深度睡眠)优先排除电源管理因素

固件更新路径:

  • BIOS最新版本:前往HPE Support Center搜索DL580 Gen10,查看v2.40之后的更新说明,重点关注“System may hang under heavy PCIe load”或“Processor cache coherency”相关的修复项。

  • iLO固件:当前2.33版本较老,建议更新至2.70以上版本。


暂无评论

粉丝:2人 关注:9人

根据描述,问题可能涉及硬件、固件、驱动或操作系统层面。以下是排查步骤:

1. 检查iLO日志:登录iLO管理界面,查看“集成管理日志”和“事件日志”,即使无报警,也可能有警告或信息性事件,特别是关于CPU、内存、PCIe设备(如网卡)的。
2. 检查服务器硬件状态:
* iLO中检查:`System Information` -> `Health`,查看所有组件状态。
* 检查是否有可收集的ASR(自动服务器恢复)日志。
* 物理检查:确认所有组件(CPU、内存、网卡)安装牢固,无松动。
3. 更新固件和驱动:
* 关键步骤:确保服务器所有固件(系统ROM、iLO、网卡、HBA、RAID卡)和驱动程序(特别是igb网卡驱动)更新到HPE官方为该服务器和操作系统认证的最新版本。固件过旧是导致此类不稳定问题的常见原因。
* 使用HPE的`Service Pack for ProLiant`(SPP)或`iLO Amplifier Pack`进行固件更新。
4. 检查操作系统日志:在Linux系统上,检查以下日志,关注网卡up/down和系统hung住时间点附近的错误。
* `dmesg`
* `/var/log/messages`
* 命令:`ip link show` 查看网卡状态历史(如果配置了持久化日志)。
5. 检查RAC和Oracle日志:分析Oracle集群日志(`crsd.log`、`ocssd.log`)和告警日志,确认节点被踢出的具体原因是否为网络心跳超时。
6. 网络环境排查:
* 检查心跳网络的物理连接(网线、交换机端口)。
* 检查交换机对应端口的错误计数(如CRC错误)。
* 尝试更换网线、交换机端口。
* 在操作系统层面,使用`ethtool`检查网卡统计信息(`ethtool -S eno3`),查看是否有大量错误包。

需要你补充的信息:
1. 当前服务器BIOS、iLO、网卡(igb)固件和驱动版本是多少?
2. iLO和操作系统日志中,在网卡up/down和服务器hung住的时间点,是否有相关错误记录(例如PCIe错误、AER错误、内存纠错等)?
3. 心跳网络是如何连接的?直连还是通过交换机?交换机型号和端口状态如何?

操作前请务必做好配置和数据的备份。 建议优先从更新固件和驱动开始。

暂无评论

粉丝:6人 关注:2人

一、整体结论(高度怀疑方向)

综合你描述的所有现象:
  1. 心跳 igb 网卡频繁 UP/DOWN
  2. 服务器整机 hung 住:无告警、无日志、无显示、ping 不通,只能断电恢复
  3. 一年前加内存后,i40e 网卡 team 异常,改 bond 才好
  4. 故障发生在夜间低负载,并非高压力下
  5. messages 完全无输出(内核直接卡死)
这一套症状组合,90% 不是单纯网卡驱动问题,而是服务器硬件 / 平台级问题:
  1. 首选怀疑:DL580 Gen10 主板 / PCIe 通道稳定性问题
  2. 次选怀疑:CPU 微码、PCH 异常、内存 ECC 静默故障、电源供电不稳
  3. igb 网卡 UP/DOWN 是 “结果”,不是 “原因”
    整机总线卡死 → 网卡驱动失去响应 → 网卡被系统判定 DOWN → RAC 心跳超时 → 节点踢出
  4. Oracle Linux 7.6 + 19c RAC 本身对硬件稳定性、PCIe、中断、NUMA非常敏感,一点总线异常就会放大成集群故障。

二、为什么基本可以排除 “单纯 igb 驱动问题”

  • 如果只是驱动 bug:
    • 只会网卡异常
    • 系统不会整机 hung、不会无信号、不会 messages 无日志
    • 不会一年前加内存就引发 i40e 异常
  • 你现在的现象是:系统内核级卡死,整个 OS 失去响应
    这是典型硬件 / 平台级挂死

三、按优先级从高到低的排查方案

1)优先查 iLO 日志(最重要,比 OS 日志靠谱)

DL580 G10 整机 hung 但无灯亮,iLO 几乎一定有记录
登录 iLO →
  • iLO Event Log
  • Integrated Management Log (IML)
  • Server Health → Hardware Diagnostics → Active/History
重点找:
  • PCIe 错误、PCIe Bus Error、AER 错误
  • SMI 通道挂起、PCH 异常
  • 电源模块异常、Power Supply degraded
  • 内存 ECC 纠错、Disabled DIMM、Training failed
  • QPI/UPI 链路错误、CPU 内部错误
只要出现任意一条,基本就是硬件问题

2)查内存问题(加内存后出问题,高度关联)

一年前加内存后出现 i40e team 异常;
现在整机 hung、无日志,非常符合内存 ECC 静默故障 / 内存兼容性问题
操作:
  1. iLO 中查看 DIMM status
  2. 重启按 F9 进入 System Utilities → 运行 Quick Test / Comprehensive Test
  3. 查看是否有:
    • Memory Correctable Errors 持续增长
    • Uncorrectable Errors
    • DIMM 被 BIOS 自动屏蔽
如果有:
  • 优先故障节点单独跑内存测试
  • 尝试:拔掉后加的内存,恢复原有配置,观察 24~48 小时
DL580 G10 对内存插槽顺序、混插型号非常敏感。

3)查 PCIe 稳定性(igb、i40e 都走 PCIe)

你有两类网卡:
  • igb(千兆心跳)
  • i40e(万兆业务)
它们共用 PCIe 通道。
系统 hung 时,PCIe 总线 AER 错误会直接导致:
  • 网卡瞬间 DOWN/UP
  • 驱动报 timeout
  • 内核卡死不写日志
在 OS 内执行:
bash
运行
dmesg | grep -i aer dmesg | grep -i pcie dmesg | grep -i error dmesg | grep -i timeout
如果出现:
plaintext
PCIe Bus Error: severity=Corrected PCIe Bus Error: severity=Uncorrected i40e PCIe reset igb PCIe link lost
实锤硬件 / 主板 / PCIe 问题

4)查网卡驱动与固件是否匹配(虽然不是根因,但要排除)

DL580 G10 搭配:
  • igb(千兆网卡)
  • i40e(万兆 X710/XL710)
必须保证:
网卡固件 (NVM/Firmware) ←→ 驱动版本 ←→ 内核 三者匹配
你现在升级了 igb 到 5.12.3,但:
  • 网卡固件可能很老
  • i40e 固件 / 驱动也可能不匹配
去 HPE 官网下载对应 DL580 G10 的:
  • Online ROM Flash Component
  • Ethernet NIC Firmware
  • i40e 驱动
Oracle Linux 7.6 内核较老,太新的驱动反而容易不稳。

5)排查 OS 内核卡死、软锁、硬锁(确认是否硬件级挂死)

bash
运行
grep -i hardlock /var/log/messages* grep -i softlock /var/log/messages* grep -i NMI /var/log/messages* grep -i watchdog /var/log/messages*
  • soft lock:驱动 / 内核死循环,还能写日志
  • hard lock / NMI watchdog:硬件级卡死,几乎无日志
    你现在是后者。

6)排查电源与散热(DL580 常见坑)

  • 双电源是否同型号、同功率
  • 是否有电源降级、冗余丢失
  • 风扇转速异常、过热降频但不报红灯
    iLO 中查看:
  • Power Supply Status
  • Power Good 状态
  • 温度曲线

四、快速验证方案(最有效)

为了在最短时间定位,建议做最小化配置验证
  1. 故障节点单独启动
    • 不接集群
    • 不接存储
    • 只接管理口 + 心跳网卡
      观察 24 小时是否还会 hung、网卡 flapping。
  2. 交换节点验证
    • 把心跳线、交换机端口、节点角色对调
      如果故障始终跟着同一台物理服务器,那就是这台机器硬件问题。
  3. 恢复旧内存配置
    拔掉后加的内存,恢复到加内存前的配置,跑压力测试。

五、你这种 RAC 环境的最终建议

  1. 先别纠结 igb 驱动
    它只是受害者,不是凶手。
  2. 重点导出 iLO IML 日志
    发给 HPE 支持,他们一眼能判断是主板、CPU、内存还是电源。
  3. 只要出现过整机 hung + 无 OS 日志
    基本可以判定:硬件问题,必须报修更换
    继续跑 RAC 非常危险,随时脑裂、双节点宕机、数据不安全。

暂无评论

编辑答案

你正在编辑答案

如果你要对问题或其他回答进行点评或询问,请使用评论功能。

分享扩散:

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作

举报

×

侵犯我的权益 >
对根叔社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明