某局点,采用R4900 G5服务器,多块NVME盘直通配置的组合模式:
某日正常使用过程中,系统下突然提示IO 异常,客户自行尝试重启服务器,重启后系统下所有NVME硬盘都不识别,且系统下有报 NVME Identify Controller failed 错误:
检查SDS 日志,未见任何报错,带外上NVME盘状态仍可正常识别;
检查系统message日志,有NVME盘超时和连接失败的告警:
且发现系统下频繁刷新如下一条打印:
“Signaling PME through PCIe PME interrupt ”
此日志打印说明系统无法正确配置或识别PCle端口的中断请求,查询相关资料,该告警为intel vmd驱动固有缺陷导致:
INTEL VMD驱动存在固有缺陷,不支持Interrupt remapping(中断重映射,硬件机制),当Interrupt remapping开启时,操作系统关闭了MSI Remapping(MSI中断重映射),导致VMD创建配置硬盘设备时使用的是默认的兼容性中断,因而系统下无法正常识别NVME硬盘。(这一场景是概率性发生的)
如遇类似英特尔平台服务器带内提示所有NVME盘同时掉盘、但带外识别正常无告警的问题,不要优先考虑是硬件问题,建议优先切iFIST命令行,验证在ifist下是否可以正常识别到硬盘,如能识别,则可以判断为此intel VMD驱动缺陷导致的错误;
1,该问题本质为操作系统层面,驱动缺陷导致的问题,自证服务器硬件本身不存在问题后,优先建议客户联系操作系统维护人员进行进一步处置;
2,还存在一种解决方案:
如果系统侧/业务侧对于BIOS VT-D功能启用与否无特殊需求,可以考虑在BIOS上将此选项disable掉。
VT-d设置与Interrupt remapping有联动关系,VT-d开启时,Interrupt remapping联动开启,VT-d关闭时,Interrupt remapping联动关闭。相当于消除触发此驱动缺陷的必要条件。
本次故障中,采用了第二种方式,关闭VT-d后,NVME盘可以正常识别
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作