故障现象PC刚开机时无法ping通S10508,过三分钟左右就正常了,但是在使用过程中又会断开。故障时候设备侧无终端的arp,在设备侧匹配终端arp报文流统发现入方向有报文进入,但是debug arp没有显示出接收到终端的arp报文。
1、故障时候远程发现流统可以统计到终端发送的arp报文,但是debug无回显,初步怀疑是到设备的arp没有上送平台处理。
2、进一步分析诊断信息,发现设备上存在大量的mac漂移,且漂移次数也在实时增加。Mac频繁漂移会导致arp不断刷新,从而导致大量arp上送cpu的arp队列,将队列打满。
a849-4d63-d461 779 XGE2/0/0/16 XGE1/0/0/46 2022-06-15 11:37:54 53286
745a-aa4b-6d86 779 XGE2/0/0/18 XGE1/0/0/48 2022-06-15 13:38:37 53705
3、查看诊断中arp队列信息,发现1框0槽和2框0槽的arp队列已经被打满,且存在大量丢包计数。
==============queue info on slot 0===============
kque_debug: 1
ontrail: ID name depth/cursize/max/drops (magic)
0: c0000000ecbd4f00 ARP_PKT 65536/65536/65536/373316517 (0x4b515545)
==============queue info on slot 18===============
kque_debug: 1
ontrail: ID name depth/cursize/max/drops (magic)
0: c00000007a26fa00 ARP_PKT 65536/65532/65536/562145102 (0x4b515545)
3、综合上述分析,本次故障是因为设备上频繁的mac漂移导致arp不断刷新,从而导致大量arp上送cpu的arp队列,将队列打满,这样就会影响新的arp的学习,表现为现场的pc重启后发给设备的arp信息得不到及时处理,从而无法ping通设备。后续现场消除部分mac漂移后恢复正常,查看arp队列也没有被打满,丢包计数也没有继续增长了。
[TXDL-HXJF_S10508-M-probe]view /proc/kque chassis 1 slot 0 | include ARP_PKT
0: c0000000ecbd4f00 ARP_PKT 65536/0/65536/381567488 (0x4b515545)
[TXDL-HXJF_S10508-M-probe]view /proc/kque chassis 1 slot 0 | include ARP_PKT
0: c0000000ecbd4f00 ARP_PKT 65536/0/65536/381567488 (0x4b515545)
[TXDL-HXJF_S10508-M-probe]view /proc/kque chassis 2 slot 0 | include ARP_PKT
0: c00000007a26fa00 ARP_PKT 65536/0/65536/573903195 (0x4b515545)
[TXDL-HXJF_S10508-M-probe]view /proc/kque chassis 2 slot 0 | include ARP_PKT
0: c00000007a26fa00 ARP_PKT 65536/0/65536/573903195 (0x4b515545)
本次故障主要因为下联物理机mac频繁漂移导致,现场消除mac漂移后问题解决。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作