某客户处有一台S5120-20P-SI,单机运行,设备出现温度过高告警,查看设备的温度信息,发现温度高达95度。
#Apr 26 12:10:47:732 2000 H3C ENTITY/4/TEMPERATURE CRITICAL:
Trap 1.3.6.1.4.1.25506.2.6.2.0.8
Temperature is greater than warning upper limit on Chassis 0 slot 1 sensor hotspot 1.
System temperature information (degree centigrade):
-------------------------------------------------------------------------------
Sensor Temperature LowerLimit WarningLimit AlarmLimit ShutdownLimit
hotspot 1
出现温度过高告警有两种可能:一是芯片温度过高,二是传感器显示有问题。对此我们的排查思路为先排除芯片温度确实过高的各种因素,还有问题就是传感器的问题了。
对于芯片是否温度过高有如下命令可以查看,这个不同设备的查看命令可能会不一样,部分设备使用[hidecmd]_dis drv prd phy_sensor 命令查看。
以S5120SI为例:
===============_display drv register cpld 26===============
===========================================================
CPLD register Informaition
Port 3 temperature: 95 0x1918 ulRet: 0
Port 7 temperature: 35 0x190c ulRet: 0
Port 11 temperature: 35 0x190c ulRet: 0
Port 15 temperature: 35 0x190c ulRet: 0
S5120SI 每四个端口共用一个phy芯片,当前可以看到port 3温度达到95摄氏度。
对于设备温度过高的排查思路如下:
1、排查物理环境问题,如机房温度、环境是否合规,可以横向对比,看下同机房其它设备的温度情况;设备风扇是否积灰;是否有进出风口被遮挡的现象;
2、排查设备本身问题:如设备硬件问题,电源、风扇是否工作正常,若只有某个phy芯片温度过高,可以检查下对应4个接口的网线是否较长、驱动功率较大导致。
此例中只有phy1温度高达95度,重点怀疑1、2、3、4端口问题,有可能网线长度过长导致驱动功率过高所致,也有可能是phy芯片故障。排除网线问题和其它环境问题后,确认是phy芯片故障,做硬件更换处理。
更换设备处理
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作