• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

R5300 G5 T4 GPU UCE问题

2025-05-26 发表
  • 0关注
  • 0收藏 25浏览
粉丝:35人 关注:9人

问题描述

有两台R5300 G5服务器,A服务器21日下午异常重启,带外有大量bus uncorrectable error指向GPU。同集群中的B服务器21日下午也有大量的bus uncorrectable error指向GPU。

过程分析

1、日志打印:

A服务器:

1、sds中重启时间点为2月21日14:12:54:

Informational  System ACPI Power State        ACPI_State      Assertion event       From BMC         2025-02-21 14:12:54      CUSTOMER     LPC Reset occurred

 

重启前有大量的slot12 UCE刷屏,重启后解除。

1023         Warning Critical Interrupt      PCIE12_GPU   Assertion event       From BIOS       2025-02-21 14:10:38        ENGINEER       Bus Uncorrectable Error---Slot 12---PCIE Name: Tesla T4     

1025         Warning Critical Interrupt      PCIE12_GPU   Assertion event       From BIOS       2025-02-21 14:10:39        CUSTOMER     Bus Uncorrectable Error---Slot 12---PCIE Name: Tesla T4     

1026         Warning Critical Interrupt      PCIE12_GPU   Assertion event       From BIOS       2025-02-21 14:10:40        ENGINEER       Bus Uncorrectable Error---Slot 12---PCIE Name: Tesla T4

 

2、 系统日志中,重启时间点为Feb 21 14:10:02

Feb 21 14:10:02 sna-12f-b-03-h5300-03-4u12 kernel: Linux version 3.10.0-957.27.8.2.g295089a.el7.x86_64 (root@172-20-53-23) (gcc version 8.3.1 20190311 (Red Hat 8.3.1-3) (GCC) ) #1 SMP Mon Nov 14 04:25:17 EST 2022

 

重启前有大量的如下打印:

Feb 21 14:06:21 sna-12f-b-03-h5300-03-4u12 kernel: Uhhuh. NMI received for unknown reason 2c on CPU 0.

Feb 21 14:06:21 sna-12f-b-03-h5300-03-4u12 kernel: Do you have a strange power saving mode enabled?

Feb 21 14:06:21 sna-12f-b-03-h5300-03-4u12 kernel: Dazed and confused, but trying to continue

Feb 21 14:06:21 sna-12f-b-03-h5300-03-4u12 kernel: sched: RT throttling activated

Feb 21 14:06:21 sna-12f-b-03-h5300-03-4u12 kernel: Uhhuh. NMI received for unknown reason 2c on CPU 0.

Feb 21 14:06:21 sna-12f-b-03-h5300-03-4u12 kernel: Do you have a strange power saving mode enabled?

Feb 21 14:06:21 sna-12f-b-03-h5300-03-4u12 kernel: Dazed and confused, but trying to continue

 

14日也有一次重启,sds日志和系统日志打印基本和21日相同。

B服务器:

1、sds日志中有大量slot10的UCE,未解除。

Warning      Critical Interrupt PCIE10_GPU Assertion event  From BIOS   2025-02-21 14:09:59      CUSTOMER Bus Uncorrectable Error---Slot 10---PCIE Name: Tesla T4

 

2、系统日志:21日没有重启记录,但是有CPU softlock,并且也有如下打印:

Feb 21 14:04:17 sna-12f-b-03-h5300-03-7u4 kernel: Uhhuh. NMI received for unknown reason 2c on CPU 0.

Feb 21 14:04:23 sna-12f-b-03-h5300-03-7u4 kernel: Do you have a strange power saving mode enabled?

Feb 21 14:04:23 sna-12f-b-03-h5300-03-7u4 kernel: Dazed and confused, but trying to continue

Feb 21 14:04:28 sna-12f-b-03-h5300-03-7u4 kernel: Uhhuh. NMI received for unknown reason 2c on CPU 0.

Feb 21 14:04:28 sna-12f-b-03-h5300-03-7u4 kernel: sched: RT throttling activated

Feb 21 14:04:28 sna-12f-b-03-h5300-03-7u4 kernel: Do you have a strange power saving mode enabled?

Feb 21 14:04:28 sna-12f-b-03-h5300-03-7u4 kernel: Dazed and confused, but trying to continue

Feb 21 14:04:34 sna-12f-b-03-h5300-03-7u4 kernel: Uhhuh. NMI received for unknown reason 2c on CPU 0.

Feb 21 14:04:34 sna-12f-b-03-h5300-03-7u4 kernel: Do you have a strange power saving mode enabled?

Feb 21 14:04:50 sna-12f-b-03-h5300-03-7u4 kernel: Dazed and confused, but trying to continue

2、进一步分析报Bus Uncorrectable Error时的status值,两台每次报UCE时status值相同,举例如下:

status0x00100000这个错误为bit20置位1161带外UCE告警的status162完全相同,也是0x00100000。其代表的含义如下图所示,即为来自T4 GPU不支持的请求响应(UR),该错误由PCIe RootPort触发系统处理器上的不可屏蔽中断(NMI),从而导致不可恢复的系统错误。

解决方法

带外告警是由于T4 GPU收到了不支持的请求响应,造成了带外UCE和服务器重启,后续由系统和业务层面进行排查及调整。

该案例对您是否有帮助:

您的评价:1

若您有关于案例的建议,请反馈:

0 个评论

该案例暂时没有网友评论

编辑评论

举报

×

侵犯我的权益 >
对根叔知了社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔知了社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作