三台机器搬迁后,都出现了CPU1的告警,工程师到现场,重启后都正常。由于担心有隐患,需要定位。
三台服务器报错时间点基本相同,均为2025-3-10 16:18前后。报错也全部相同,以其中一台服务器为例:
MCA指向CPU1侧,CPU1侧内部错误:
其余寄存器信息均为0,为无效寄存器,只dump出PCU寄存器信息,MC4_STATUS : 0xfa0000000005040c
使用intel解析工具进一步解析MCA的crash dump解析出PCU:Shutdown_Error:_SW_triple_fault_shutdown。
该错误此前咨询过intel,intel反馈SW_triple_fault_shutdown告警为software在分配page的时候造成的。该问题通常和页分配相关的处理可能引起,为软件侧问题,考虑环境问题。
观察到串口日志,在出现问题时间点存在iPXE的动作,并上报以下报错:
EFI stub: ERROR: Failed to alloc highmem for initrds
Trying to load files to higher address
启动iPXE系统时EFI Stub在尝试为文件(如initrd)分配高端内存(highmem)时失败了。这可能是由于内存不足或内存分配冲突或者initrd太大了导致。
相同报错可参考https://access.redhat.com/solutions/3661541
报错由于iPXE系统加载时异常导致,CPU无硬件故障,无需更换。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作