• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

(修订) HPE ProLiant Gen10 Plus/Gen10 Plus V2 Servers and Apollo Gen10 Plus Servers -配置有 AMD EPYC 7xx2 或 7xx3 系列处理器的系统上可能会出现无法纠正的 PCIe 总线错误

  • 0关注
  • 0收藏 84浏览
粉丝:8人 关注:0人

组网及说明

 

(Revision) HPE ProLiant Gen10 Plus/Gen10 Plus V2 Servers and Apollo Gen10 Plus Servers - Uncorrectable PCIe Bus Errors May Occur On Systems Configured with an AMD EPYC 7xx2- or 7xx3-Series Processor

文档 ID:a00140808en_us    Last Updated: 2024-10-22

 

影响范围:

 

HPE ProLiant DL325 Gen10 Plus server

HPE ProLiant DL385 Gen10 Plus server

HPE Apollo 2000 Gen10 Plus System

HPE ProLiant DX385 Gen10 Plus server

HPE Apollo 6500 Gen10 Plus System

HPE ProLiant XL675d Gen10 Plus Configure-to-order Server

HPE ProLiant XL645d Gen10 Plus Configure-to-order Server

HPE ProLiant DL385 Gen10 Plus v2 server

HPE ProLiant DL345 Gen10 Plus server

HPE ProLiant DL365 Gen10 Plus server

HPE ProLiant DL325 Gen10 Plus v2 server

 

 

问题描述

HPE ProLiant Gen10 Plus Gen10 Plus V2 服务器和 Apollo Gen10 Plus 服务器可能会遇到无法纠正的 PCIe 总线错误。这些服务器将配置 AMD EPYC 7xx2 7xx3 系列处理器,其中“xx”可以是与 AMD 处理器型号匹配的任何字符。

IML日志中显示如下类似报错消息:

Uncorrectable PCI Express Error Detected. Slot 3 (Segment 0x0, Bus 0x43, Device 0x0, Function 0x0). Uncorrectable Error Status: 0x40000 ACTION: Update the firmware of the failing device. If the issue persists, replace the device.

Uncorrectable PCI Express Error Detected. Slot 3 (Segment 0x0, Bus 0x43, Device 0x0, Function 0x0). Uncorrectable Error Status: 0x44000 ACTION: Update the firmware of the failing device. If the issue persists, replace the device.

Uncorrectable PCI Express Error Detected. Slot 7 (Segment 0x0, Bus 0xCB, Device 0x0, Function 0x0). Uncorrectable Error Status: 0x4000 ACTION: Update the firmware of the failing device. If the issue persists, replace the device.

过程分析

上面的 IML 条目表示由端点 PCIe 选项发出的“完成超时”错误。这通常是能够进行高带宽数据传输的设备,例如 Infiniband 卡或 GPU。具有较旧固件的 Mellanox 网络和 Infiniband 适配器可能仅发出不可纠正的错误,status 0x40000,这表示由于错误导致的格式错误的 TLP 错误,该错误已通过可在此处here 下载更新进行修复。更新后的 Mellanox 适配器将发出不可纠正的错误status  0x44000

解决方法

如果服务器配置了 AMD EPYC 7xx3 处理器,请首先建议将系统BIOS 更新至版本 3.00(或更高版本)。升级BIOS后,重启服务器进入F9进入RBSU,导航到 System Configuration > BIOS/Platform Configuration (RBSU),按 CTRL+A 进入服务菜单,选择L1 IO Drop Chain Enable >Enabled。按 F10 键保存,然后按 ESC 键返回到 RBSU 菜单。按照以下说明进一步优化服务器设置。

 

对于配置了 AMD EPYC 7xx2 7xx3 处理器的服务器可能存在不太理想的配置设置,这也导致了故障的发生。HPE已与 AMD 进行了沟通,为系统实用程序中的配置选项提供了推荐设置。请按照以下指示修改配置设置。并非所有设置都适用于所有服务器。如果某个设置不可用,则可以忽略它。

 

首先,如果需要,重新启动服务器并在 POST 期间按 F9 启动到系统实用程序菜单。在系统实用程序菜单中,导航到System Configuration > BIOS/Platform Configuration (RBSU)。导航到各种设置将从这里开始。

  • 设置 Workload Profile to "Custom". "BIOS/Platform Configuration (RBSU)" 菜单, 选择 Workload Profile > Custom. 请注意,必须进行此选择才能确保后续配置设置可用. F10保存设置.
  • 禁用 Infinity State Power Management. "BIOS/Platform Configuration (RBSU)" 菜单, 导航到 Power and Performance Options > Advanced Power Options> Infinity Fabric Power Management > Disable. F10保存设置.
  • 设置 Infinity Fabric Performance State. "BIOS/Platform Configuration (RBSU)" 菜单, 导航到 Power and Performance Options > Infinity Fabric Performance State > P0. F10保存设置.
  • 配置 AMD NBIO LCLK DPM Level. "BIOS/Platform Configuration (RBSU)" 菜单, 导航到 Power and Performance Options > I/O Options > NBIO LCLK DPM Level. 有七种不同的 NBIO LCLK 选项可供配置。对于每个选项,请选择 Static High. F10保存设置.
  • 禁用 C-State Efficiency Mode. "BIOS/Platform Configuration (RBSU)" 菜单, 导航到 Power and Performance Options > C-State Efficiency Mode > Disable. F10保存设置.
  • 禁用 Data Fabric C-States. "BIOS/Platform Configuration (RBSU)" 菜单, 导航到 Power and Performance Options > Data Fabric C-State Enable > Disable. F10保存设置.
  • 禁用 Access Control Service. "BIOS/Platform Configuration (RBSU)" 菜单, 导航到 Virtualization Options > Access Control Service > Disable. F10保存设置.
  • 禁用Active State Power Management "BIOS/Platform Configuration (RBSU)" 菜单, 导航到System Configuration > BIOS/Platform Configuration (RBSU) > PCIe Device Configuration > PCIe Power Management (ASPM) > Disabled. F10保存设置.
  • 设置 minimum C-state. "BIOS/Platform Configuration (RBSU)" 菜单, 导航到 Power and Performance Options > Minimum Processor Idle Power Core C-State.
    • 如果操作系统中安装了cpupower包,选择 C6.
    • 否则,选择 No C-States.
    • F10 保存设置.

 

此外,在操作系统级别,配置操作系统在启动时执行以下命令。

使用以下命令配置 cpupower

cpupower idle-set -d 2

禁用所有 PCIe 设备上的访问控制服务(ACS)。下面提供了一个示例命令,可在 Linux 平台上执行。执行该命令可能会出现输出提示某些 PCIe 设备无法执行的情况。这是预期的行为。

for i in $(lspci | cut -f 1 -d " "); do setpci -v -s $i ecap_acs+6.w=0; done

注意:这些命令不是永久的,需要将其添加到启动脚本中,因此在重新启动后会再次执行这些命令。

 

该案例对您是否有帮助:

您的评价:1

若您有关于案例的建议,请反馈:

0 个评论

该案例暂时没有网友评论

编辑评论

举报

×

侵犯我的权益 >
对根叔知了社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔知了社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作