客户反馈3台R5500 G6服务器GDR通讯异常。具体现象为:跑GDR测试时,同一组GPU和网卡通讯异常.例如GPU0-NIC0不通、GPU1-NIC1不通……GPU8-NIC8不通,GPU0-NIC1、GPU0-NIC2……GPU8-NIC7正常。
结合故障现象及硬件拓扑图,客户反馈的问题符合Switch固件未开启P2P功能时的现象。此问题属于H3C已知问题,H3C发布的基线Switch固件版本04.101.00默认未开启P2P功能,在已发布的04.101.01.00中使能P2P,解决GDR通讯异常问题。
当前04.101.00.00版本存在已知GDR问题,即同一PCLe Switch下的网卡和GPU测试不通。而04.101.00.00是博通提供的基线版本,默认未开启P2P,因此存在上述问题。我司在测试过程中发现该问题并已发布04.101.01.00版本中通过开启intel Host P2P用于解决该问题。现场升级switch固件版本从04.101.00.0至04.101.01.00后问题解决。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作