一、 问题现象
某局点客户反馈一台SR6608路由器主控板温度异常,要求我司相关人员处理。我们联系客户收集了此台SR6608的诊断信息,开始分析问题。
首先,我们观察到此台SR6608配置了两块RPE-X1主控板,一块FIP-200灵活接口平台:
===================display device====================
System-mode(Current/After Reboot): Normal/Normal
Slot No. Board type Status Primary SubSlots
---------------------------------------------------------------------
0 RPE-X1 Normal Master 0
1 RPE-X1 Normal Slave 0
2 N/A Absent N/A N/A
3 FIP-200 Normal N/A 2
4 N/A Absent N/A N/A
5 N/A Absent N/A N/A
诊断信息中可见,两块主控板均存在温度异常现象,而FIP-200灵活接口平台温度是正常的。
===============display temperature information verbose===============
Slot 0 : RPE-X1 Tx-55 T1-2
-------------------------------------------------------------
Index Description Temprature Threshold InUse
0 CPU 35 <-10,63,73,78> Yes
1 FAN 34 <0,120,255,255> No
2 Environment -4 <-10,53,63,255> Yes
3 Environment -5 <-10,53,6v3,255> Yes
0-Normal(0) 1-Normal(0) 2-Normal(0) 3-Normal(0)
Slot 1 : RPE-X1 Tx-55 T1-2
-------------------------------------------------------------
Index Description Temprature Threshold InUse
0 CPU 33 <-10,63,73,78> Yes
1 FAN 34 <0,120,255,255> No
2 Environment -4 <-10,53,63,255> Yes
3 Environment -5 <-10,53,63,255> Yes
0-Normal(0) 1-Normal(0) 2-Normal(0) 3-Normal(0)
Slot 3 : FIP-200 Tx-63 T1-4
-------------------------------------------------------------
Index Description Temprature Threshold InUse
0 CPU 44 <0,70,80,85> Yes
1 Environment 32 <-10,53,63,255> Yes
0-Normal(0) 1-Normal(0)
二、 问题分析
我们首先判断客户机房现场温度是否会低至-5度。客户明确表示,不可能会低至此温度。可见确实是SR6608路由器发生了异常。
由于现场两块主控板的温度均存在异常,并且异常数值相同。考虑到两块主控板同时发生异常的可能性极小,那么基本可以排除主控板故障。
随后,我们把怀疑的目光放在主控板托盘上。客户现场SR6608路由器使用的是RPE-X1主控板,这种型号的主控板需插在BKEA/BKEB托盘上(早期发货的SR6608路由器大多数使用BKEA托盘承载RPE-X1主控板,后续BKEA托盘被BKEB托盘取代),再将托盘连同主控板插在SR6608路由器的机框里。由于BKEA/BKEB托盘上同样存在温度传感器,所以我们怀疑BKEA/BKEB托盘出现故障的可能性非常大。
在设备隐藏模式下,我们通过以下命令查看客户现场设备使用的托盘型号,确认是BKEA:
[H3C-hidecmd]tshow board-spec
Slot 0 is Absent
The information on Board1:
Type : RPE-X1
CPU type : FREESCALE MPC8548 1000MHz
Bus clock : 400000000
Timebase clock: 50000000
PVR : 80210022
SVR : 80390021
SW-Board : BKEA
SW-Board CPLD: 1.0
SW-Board PCB: Ver.A
BackPlane PCB: Ver.A
Power2 Type: VAPEL PSR650-A
另外,我们在设备隐藏视图下收集以下信息:
[H3C]_h
Now you enter a hidden command view for developer's testing, some commands may
affect operation by wrong use, please carefully use it with our engineer's
direction.
[H3C-hidecmd]tshow mainboard slot 15 register cpld
Sw Cpld
00H~07H: 0x00 0x00 0x02 0x00 0x00 0x00 0x00 0x5f
08H~0FH: 0x00 0x00 0x00 0x00 0x00 0x00 0x02 0x00
10H~17H: 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00
18H~1FH: 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00
20H~27H: 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x01
28H~2FH: 0x02 0x01 0x00 0x00 0x00 0x00 0x0a 0x19
30H~37H: 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00
38H~3FH: 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00
[H3C-hidecmd]tshow mainboard slot 15 register fan
00H~07H: 0x90 0x15 0x03 0x03 0x7f 0x07 0x07 0x00
08H~0FH: 0x00 0x00 0x51 0x00 0x03 0x41 0x02 0x00
10H~17H: 0x00 0x01 0x51 0x51 0x51 0x51 0x51 0x51
18H~1FH: 0x1a 0x1a 0x51 0x51 0x51 0x51 0x51 0x51
20H~27H: 0xff 0xff 0x51 0x51 0x51 0x51 0x51 0x51
28H~2FH: 0x00 0x00 0x04 0x00 0x00 0x00 0x00 0x51
30H~37H: 0x00 0x00 0x00 0x51 0x51 0x51 0x51 0x51
38H~3FH: 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x51
40H~47H: 0x80 0x80 0x80 0x51 0x51 0x51 0x51 0x51
48H~4FH: 0x00 0x00 0x00 0x51 0x51 0x51 0x51 0x51
50H~57H: 0x00 0x00 0x51 0x51 0x51 0x51 0x51 0x51
58H~5FH: 0x00 0x00 0x51 0x51 0x51 0x51 0x51 0x51
60H~67H: 0x99 0x08 0x51 0x51 0x51 0x51 0x51 0x51
68H~6FH: 0x2f 0x2f 0x51 0x51 0x51 0x51 0x51 0x51
70H~77H: 0x00 0x00 0x51 0x51 0x51 0x51 0x51 0x51
78H~7FH: 0xff 0xff 0x51 0x51 0x51 0x51 0x51 0x51
80H~87H: 0x28 0x1e 0x27 0x51 0x51 0x51 0x51 0x51
88H~8FH: 0x53 0x51 0x50 0x51 0x51 0x51 0x51 0x51
90H~97H: 0x35 0x3c 0x3c 0x51 0x51 0x51 0x51 0x51
98H~9FH: 0x00 0x00 0x00 0x51 0x51 0x51 0x51 0x51
A0H~A7H: 0xf6 0xfa 0xf9 0x51 0x51 0x51 0x51 0x51
A8H~AFH: 0xff 0xff 0x51 0x51 0x51 0x51 0x51 0x51
B0H~B7H: 0x00 0x00 0x51 0x51 0x51 0x51 0x51 0x51
B8H~B9H: 0x80 0x80
通过以上信息,我们可以看到,CPLD、FAN均可读出正常数值。由于CPLD、FAN与温度传感器共用I2C总线,证明I2C总线工作正常。
至此,我们基本可以确定,设备BKEA托盘上的温度传感器故障,导致主控板温度显示异常。后续与研发专家进行沟通,也确认了这一点。
三、 问题处理方法
此问题确实是SR6608路由器的故障,但重启设备以后,异常现象应该可以消失。并且,此问题不影响客户业务的正常运行,所以不建议客户处理。
如果客户执意要处理,请客户反馈机框的条码,我们为客户更换相应的硬件,方法如下:
1、 早期SR6608路由器机框和BKEA托盘是一起发货的,共用一个条码。这种情况,需要将机框与BKEA托盘一起更换。
2、 后期两者分开发货,各有自己的条码,这种情况,只需将BKEA托盘更换即可。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作