客户反馈带外和系统下均存在CPU的超温告警。
带外日志看:
系统下看到的超温告警如下:
虽然带外的CPU告警提示是CPU1, 现场认为系统下的CPU超温的核心最大到了第59个核心。 由于一个CPU开启超线程为40个核心,因此认为需要更换双C。
注意:
CPU开启超线程之后,系统下的CPU的编号是跳跃的。具体逻辑CPU和物理CPU的对应关系应该通过cat /proc/cpuinfo来查看,如下:
根据匹配关系,系统下的CPU超温全部归属于CPU1.
遇到类似的问题,请核对清楚系统下CPU告警和带外CPU告警的匹配关系,再确认更换的部件,防止过渡维修。
不是这样的,换CPU的动作是针对物理CPU,也就是socket。 而系统下的超温虽然是离散的,但实际都归属于物理CPU1. 所以换了CPU1就好了。
案例主要提醒,开启超线程之后,系统下的离散CPU序号,可能只属于一个物理CPU
(0)
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
您好,下面评论已答复您