远端业务网络——运营商传输——第三方FW——(G2/2/1)SR88F( G2/2/1)——核心SW1——用户交换机1——业务
|( G2/2/2)———核心SW2——用户交换机2——业务
后端业务侧反馈有视频业务卡顿丢包问题。
客户进行排查后发现设备ping三个互联业务设备超过一定字节的大包存在丢包,所以怀疑设备对大包处理有问题,要求设备进行定位
1、首先告知客户,设备本地ping包和转发大包是不同的处理流程。本机ping大包是CPU收发包,转发报文是单纯由板卡硬件芯片处理。
2、组网内MTU未额外设置,因此即使视频流量是大包,也会提前在链路端点的网络设备进行分片,不会涉及SR88F设备处理大包转发的问题。
3、用户3个业务口都存在问题,其中G2/2/3测试发现是Ping –s 9600时固定7个包丢一个。
4、尝试ping填充全F以及全0,都存在丢包,bit跳变的可能性基本可以排除。
且丢包时镜像物理端口看报文是有完整发送了所有分片,但一个reply报文都没有收到。
[sr88F]ping -s 9600 -c 50 -p ffffffff 1.2.3.4
PATTERN: 0xffffffff
Ping 1.2.3.4 ( 1.2.3.4 ): 9600 data bytes, press CTRL+C to break
9600 bytes from 1.2.3.4 : icmp_seq=0 ttl=255 time=9.631 ms
9600 bytes from 1.2.3.4 : icmp_seq=1 ttl=255 time=19.983 ms
9600 bytes from 1.2.3.4 : icmp_seq=2 ttl=255 time=8.171 ms
9600 bytes from 1.2.3.4 : icmp_seq=3 ttl=255 time=9.535 ms
9600 bytes from 1.2.3.4 : icmp_seq=4 ttl=255 time=9.746 ms
9600 bytes from 1.2.3.4 : icmp_seq=5 ttl=255 time=9.523 ms
Request time out
5、新起一个接口GE3/1/4和GE3/1/15接PC验证,则不存在丢包。因此怀疑大包丢包原因不是路由器本身造成。
6、由于上下行设备都无法登陆,又无法彻底排除板卡问题可能性,所以特别申请一块板卡备件到现场已经二层串接抓包。
7、备件到现场后,将其插入SR88F设备,接口切换为二层access口,通过vlan划分出上下行通道模拟交换机串接。在二层接口上镜像证明,SR88F发的报文能正常分片发出,而丢包时,对端确实一个分片也没有回应。因此排除分片错包导致本端重组出错的可能。
8、发现ping上行防火墙和下行交换机的相同字节长度丢包比例不一致,而两台下行交换机的丢包比例一致,且降低ping包封装大小和延长ping报文发送间隔均可降低丢包率。
综上所述,怀疑是由于对端交换机防火墙设备对大包重组性能比较差,超出负载后就直接丢弃请求,可排除路由器问题。
排除路由器问题,将定位过程和结论同步给客户,客户表示认可。
后续客户将SR88F跳过防火墙直接连运营商外网测试业务,此时终端ping服务器大包丢包现象消失,因此判断为第三方防火墙设备问题。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作