H3C UniServer R4900 G5 SFF-RS3Z3R4900G5C-CTO服务器
系统及软件版本:ubuntu 22.04
现场几十台设备不定期的上报UMCE,现场反馈重启后大部分设备均可以恢复正常,且没有硬件故障,但是过段时间还会宕机,重启后还是未发现硬件故障
1,由于涉及批量问题,对全部带外日志分析,尤其对宕机后恢复正常的10几台设备做对比分析,未发现硬件层面异常情况,重启后均恢复正常
2,通过沟通了解到,客户有对BIOS等固件版本的一致性要求,且异常设备多为做过固件降级操作。
3,对比客户异常设备和正常设备的BIOS内嵌部件版本信息发现,虽然降级设备BIOS固件版本和正常设备一致,但是Micocode版本号不一致。如下(图1),客户要求的BIOS固件版本是5.71(C35),但是实际Micocode版本号是5.78版本BIOS,对应的是McU:m 87 606a6 0d0003e7.mcb(图2、图3)
图1
图2
图3(客户测试机器上验证)
4,客户正常机器的固件版本(5.71版本)对应的Microcode版本是m 87 606a6 0d0003d1.mcb(如图4)
图4
5,进一步找客户IT验证了一下固件降级的操作情况,发现客户是通过redfish接口来做的降级动作update_bios_firmware $ip $auth C35-BIOS-5.71-signed.bin:如(图5),从 "ForceUpgrade": true参数看,看上去也是做了强制执行的,但问题就是出现在固件降级上,怀疑是这个参数没有生效;
图5
6,进一步看手册发现,取值解释仅REPO固件升级,强制升级选项可用(图6)
图6
基于以上分析:建议客户对于异常设备做固件强制覆盖操作
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作