文档 ID:a00140808en_us Last Updated: 2024-10-22
影响范围:
HPE ProLiant DL325 Gen10 Plus server
HPE ProLiant DL385 Gen10 Plus server
HPE Apollo 2000 Gen10 Plus System
HPE ProLiant DX385 Gen10 Plus server
HPE Apollo 6500 Gen10 Plus System
HPE ProLiant XL675d Gen10 Plus Configure-to-order Server
HPE ProLiant XL645d Gen10 Plus Configure-to-order Server
HPE ProLiant DL385 Gen10 Plus v2 server
HPE ProLiant DL345 Gen10 Plus server
HPE ProLiant DL365 Gen10 Plus server
HPE ProLiant DL325 Gen10 Plus v2 server
HPE ProLiant Gen10 Plus 或 Gen10 Plus V2 服务器和 Apollo Gen10 Plus 服务器可能会遇到无法纠正的 PCIe 总线错误。这些服务器将配置 AMD EPYC 7xx2 或 7xx3 系列处理器,其中“xx”可以是与 AMD 处理器型号匹配的任何字符。
IML日志中显示如下类似报错消息:
Uncorrectable PCI Express Error Detected. Slot 3 (Segment 0x0, Bus 0x43, Device 0x0, Function 0x0). Uncorrectable Error Status: 0x40000 ACTION: Update the firmware of the failing device. If the issue persists, replace the device.
Uncorrectable PCI Express Error Detected. Slot 3 (Segment 0x0, Bus 0x43, Device 0x0, Function 0x0). Uncorrectable Error Status: 0x44000 ACTION: Update the firmware of the failing device. If the issue persists, replace the device.
Uncorrectable PCI Express Error Detected. Slot 7 (Segment 0x0, Bus 0xCB, Device 0x0, Function 0x0). Uncorrectable Error Status: 0x4000 ACTION: Update the firmware of the failing device. If the issue persists, replace the device.
上面的 IML 条目表示由端点 PCIe 选项发出的“完成超时”错误。这通常是能够进行高带宽数据传输的设备,例如 Infiniband 卡或 GPU。具有较旧固件的 Mellanox 网络和 Infiniband 适配器可能仅发出不可纠正的错误,status 0x40000,这表示由于错误导致的格式错误的 TLP 错误,该错误已通过可在此处here 下载更新进行修复。更新后的 Mellanox 适配器将发出不可纠正的错误status 0x44000。
如果服务器配置了 AMD EPYC 7xx3 处理器,请首先建议将系统BIOS 更新至版本 3.00(或更高版本)。升级BIOS后,重启服务器进入F9进入RBSU,导航到 System Configuration > BIOS/Platform Configuration (RBSU),按 CTRL+A 进入服务菜单,选择L1 IO Drop Chain Enable >Enabled。按 F10 键保存,然后按 ESC 键返回到 RBSU 菜单。按照以下说明进一步优化服务器设置。
对于配置了 AMD EPYC 7xx2 或 7xx3 处理器的服务器可能存在不太理想的配置设置,这也导致了故障的发生。HPE已与 AMD 进行了沟通,为系统实用程序中的配置选项提供了推荐设置。请按照以下指示修改配置设置。并非所有设置都适用于所有服务器。如果某个设置不可用,则可以忽略它。
首先,如果需要,重新启动服务器并在 POST 期间按 F9 启动到系统实用程序菜单。在系统实用程序菜单中,导航到System Configuration > BIOS/Platform Configuration (RBSU)。导航到各种设置将从这里开始。
此外,在操作系统级别,配置操作系统在启动时执行以下命令。
使用以下命令配置 cpupower。
cpupower idle-set -d 2
禁用所有 PCIe 设备上的访问控制服务(ACS)。下面提供了一个示例命令,可在 Linux 平台上执行。执行该命令可能会出现输出提示某些 PCIe 设备无法执行的情况。这是预期的行为。
for i in $(lspci | cut -f 1 -d " "); do setpci -v -s $i ecap_acs+6.w=0; done
注意:这些命令不是永久的,需要将其添加到启动脚本中,因此在重新启动后会再次执行这些命令。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作