割接前组网:S10500—S12500-X
割接后组网:S10500—S12500X-AF—S12500-X
客户进行网络变更,在原拓扑S10500—S12500-X中间增加S12500X-AF设备;变更后业务测试正常,但是现场有测试服务器在做ping S10500上的676个网关地址出现丢包,在服务器侧抓包确认676个报文是在0.1s内发出来。但客户变更前也进行了同样的ping测试,没有存在丢包。由于没法和客户详细解释该原因,因此客户选择回退网络,回退之后ping测试确实也没有存在丢包,设备的softcar丢包统计值也没有增长。
1、故障时,查看S10500 softcar信息情况,发现上送cpu的ICMP报文速率371pps,并且DisPkt_All对应的计数值一直在增长。其中,S10500对ICMP报文200 PPS的限速是针对端口的。
====debug rxtx softcar show chassis 1 slot 0====
ID Type RcvPps Rcv_All DisPkt_All Pps Dyn Swi Hash ACLmax
44 ICMP 371 15205094 161661 200 S On SMAC 8
2、客户回退业务之后,查看S10500 softcar信息情况,发现上送cpu的ICMP报文速率仍然是370pps左右,但是DisPkt_All对应的计数值不再增长,服务器的ping测试也没有出现丢包。
====debug rxtx softcar show chassis 1 slot 0====
ID Type RcvPps Rcv_All DisPkt_All Pps Dyn Swi Hash ACLmax
44 ICMP 370 27233088 221661 200 S On SMAC 8
3、继续分析,发现S10500到服务器的路由是ECMP、总共4个下一跳分布在两个单板上。
===============display ip routing-table===============
Destinations : 7240 Routes : 22157
Destination/Mask Proto Pre Cost NextHop Interface
10.2.215.160/28 O_ASE2 150 6000 10.111.31.18 FGE1/0/0/5
10.111.31.22 FGE2/0/0/5
10.111.31.26 FGE1/0/0/6
10.111.31.30 FGE2/0/0/6
4、对比割接前后,ICMP报文进入到S10500的接口是不变的,每个单板进来的速率也基本一样。由于每个单板上有两个端口,每个端口的限速是200pps,因此,怀疑割接前每个单板上两个端口的流量大小比较均匀,而割接后两个端口的流量大小不均匀。由于客户进行了割接回退,在对应端口上进行长时间流统,每个端口的报文平均速率确实没有达到200pps,也佐证了这个猜想。
继续分析现场组网情况,割接前组网:S10500—S12500X,只有一次ECMP;割接后组网中,S10500—S12500X-AF—S12500-X都是通过ECMP等价路由互通的,因此怀疑存在二次hash不均的问题。
通过调整新增S12500X-AF的hash算法后,服务器ping测试恢复正常。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作