现场WX6100E 设备slot 0上新插的AC业务板EWPX2WCMD (该AC板卡是从其他正常使用的设备上拔出,插入到目前的设备上) 出现在该主控板上ping slot 0 AC业务板的111.195.60.29地址不通,远端无法直接ping通或telnet到AC板卡上,但是从AC板卡ping主控板地址可以通。主控板可以oap conn slot 0到AC业务板,在AC业务板上ping 主控板111.195.60.19地址通,现场将TG0/0/2口shutdown,T0/0/1口 shutdown 再undo shutdown 观察故障现象依旧。
现场其他槽位的EWPX2WCMD 单板 与故障AC单板的版本都是一样的。
===============display device verbose===============
==========================================================
Slot No. Brd Type Brd Status Subslot Num Sft Ver Patch Ver
0 EWPX2WCMD Normal 0 WX6100E-6708P09 None
1 EWPX2WCMD Normal 0 WX6100E-6708P09 None
2 EWPX3WCMD Normal 0 WX6100E-6708P09 None
3 EWPX2WCMD Normal 0 WX6100E-6708P09 None
4 EWPX2WCMD Normal 0 WX6100E-6708P09 None
5 EWPX2SRPD Master 0 WX6100E-6708P09 None
6 EWPX2SRPD Slave 0 WX6100E-6708P09 None
7 EWPX3WCMD Normal 0 WX6100E-6708P09 None
8 EWPX3WCMD Normal 0 WX6100E-6708P09 None
9 EWPX3WCMD Normal 0 WX6100E-6708P09 None
10 EWPX2GP48SC Normal 0 WX6100E-6708P09 None
11 EWPX2GP48SC Normal 0 WX6100E-6708P09 None
1、通过在AC上debug ip icmp以及做流通看报文统计,AC均没有收到主控发送过来的报文。
2、进行替换测试观察,通过对0槽和1槽进行替换测试观察,发现问题跟着槽位走。
3、通过远程分析交换机,查看设备主动往外ping要查找的ARP 表,路由表,MODPORT表是正确的,转发上应该不存在问题。
4、之后再交换机上Ping的长度2000大包报文(0槽和1槽都没有长度2000的报文),从5槽主控CPU发出时的报文打印看报文是正确的,然后报文经过5槽的转发芯片56514和网片56700后又HG口转发到0槽的HG0口,这时在这个HG0口单独做原IP,目的IP以及目的MAC的流统都没有统计到报文,但是看HG口的show/c显示是有IR2047计数的,说明报文已经到达HG口了(同样的方法,在1槽位上同网段的报文能匹配到),但是报文内容不对,并且show/c中显示,这个HG0口把所有的由主控过来的报文全丢掉了(RDBGC3,找不到出端口丢包),应该是这个口过来的报文全都有问题,因此推测是5槽主控的56700硬件问题导致报文出错而在HG口被丢弃。
5、看流量不通的原因是下面主控网片和0槽单板之间连接的HG4口的寄存器错误,如下HIGIG2MODE这位应该是0。进行主备倒换进行观察故障恢复,确定为5槽位主控故障,进行更换该主控板。
MAC_TXCTRL.hg4[0x4007]=0x4040089: <HDRMODE=1,CRC_MODE=2,AVGIPG=8,
THROTDENOM=8,HIGIG2MODE=1>
通过替换测试和分析确定为交换机主控单板到slot0的HG线路故障,更换主控板进行解决。
对于插卡类故障,能替换测试操作的话可以先通过替换测试确认故障的可能位置,如果故障跟着单板走,分析确认是否是单板硬件故障导致,如果故障跟着槽位走的话可能的原因是机框导致或者是主控故障。机框故障的可能性很小,此时需要分析主控是否发生故障。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作