问题描述:
某局点一台S6506R配置了一块主控板,一块业务板(FT48),版本刚刚升级为033版本。在开局过程中,出现业务单板故障,具体表现为设备加电后,主控板启动正常,随后业务板也可以注册上,通过dis dev显示状态显示也是正常(Normal)的。但是,业务板却无法正常转发,并且在1、2分钟后,主控板上对应该业务板的告警灯会变红一下(大概1秒钟),之后该业务单板就开始自动重启。重启完后,情况和以前一样,也是可以正常注册,但是无法业务转发。将该业务板更换到其他槽位,情况也是一样的。主控板运行一直正常。
过程分析:
得到故障现象描述后,首先怀疑这个问题可能为单板硬件问题或者软件版本问题。可以通过替换法来排查几种可能的原因。由于现场没有其他的业务板,而且局点比较偏远,无法立刻更换单板,因此,需要通过其他方法先确认是否是硬件问题,然后再做进一步处理。
为了更进一步确认问题,要求工程师进一步反馈超级终端显示的信息。但是现场反馈屏幕上没有什么特殊的信息,所以只能通过邮件将诊断信息返回分析。
收到邮件后查看启动过程,的确和现场反馈的差不多,先是主控板启动正常,然后显示业务板注册成功,通过dis dev也是显示该单板为normal状态,不过很快屏幕上就出现了单板重起的信息。
%Jun 9
Board is rebooted in Frame 0 Slot 2
#Jun 9
Trap 1.3.6.1.4.1.2011.2.23.1.12.1.10: frameIndex is 0, slotIndex 0.2
然后就出现了单板注册的信息:
%Jun 9
Board state change to OK in Frame 0 Slot 2, Type is LS81FT48
查看相关的信息都是没有什么异常。难道是机箱的背板出现了问题?比如插针歪了,或者背板总线故障?就在猜测的时候,忽然发现一个问题。通过dis dev命令查看单板状态的时候,虽然单板状态是对的,但是设备的槽位数目不对。S6506R应该有8个槽位,而此时信息显示的槽位却只有7个!
<6506R>dis dev
Slot No. Brd Type Brd Status Subslot Num Sft Ver
0 LS81SRPU
1 NONE Absent Absent None
2 LS81FT48 Normal 0 6506-033
3 NONE Absent Absent None
4 NONE Absent Absent None
5 NONE Absent Absent None
6 NONE Absent Absent None
此时通过dis dev查看版本信息,原来设备中的版本是S6506-033,而不是S6506R-033!
<6506R>dis ver
Huawei Versatile Routing Platform Software
VRP (R) Software, Version 3.10(CN), RELEASE 0033
Copyright (c) 2000-2003 HUAWEI TECH CO., LTD.
Quidway S6506 uptime is 0 week,0 day,0 hour,8minutes
SRPU 0: uptime is 0 weeks,0 days,0 hours,8minutes
QuidwayS6500 with 1 MPC8260 Processor
256M bytes SDRAM
16384K bytes Flash Memory
0K bytes NVRAM Memory
PCB Version : REV.0
BootROM Version : 306
CPLD Version : 004
Software Version : 6506-033
LPU 2: uptime is 0 weeks,0 days,0 hours,1 minutes
QuidwayS6500 LPU with 1 MPC850 Processor
64M bytes SDRAM
0K bytes Flash Memory
0K bytes NVRAM Memory
PCB Version : REV.0
BootROM Version: 306
CPLD Version : 002
Software Version: 6506-033
解决方案:
将现场的设备版本更新一下,重新升级到S6506R-033版本后,问题解决。查看dis dev信息,有8个槽位:
<6506R>dis dev
Slot No. Brd Type Brd Status Subslot Num Sft Ver
0 LS83SRPC Master 0 6506R-033
1 NONE Absent Absent None
2 LS81FT48
3 NONE Absent Absent None
4 NONE Absent Absent None
5 NONE Absent Absent None
6 NONE Absent Absent None
7 NONE Absent Absent None
结论:
因为升级错版本造成的设备运行异常,通常表现为设备升级后整机或者单板不停的重起。今后碰到此类问题时,一定要先确认一下版本。由于S6500系列的0XXX系列和1XXX系列的版本,对于不同的65产品有不同的软件文件,很容易升级错误,因为大家在升级时一定要仔细确认版本文件是否和产品配套。
对于2XXX系列和3XXX系列版本,因为所有65产品都使用一个版本文件,所以不存在上述问题。
在处理类似问题的时候,没有十足的把握时,不要轻易定位为硬件问题。虽然产品的硬件故障的可能性存在,但是应该要先仔细的定位,否则盲目的更换硬件后,不仅问题没有解决,还会给用户造成很不好的影响。
附件是我后来在实验室复现问题的相关信息。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作