简单组网如下。两个75E做VRRP,下联服务器,做二层。客户报故障S7506E交换机下挂服务器之间每隔五分钟会出现丢UDP报文的情况,影响了业务。经过确认,服务器之间的UDP业务报文是组播报文,设备侧未起任何组播相关协议,设备在对应的业务vlan直接广播转发该报文。
现场是两台75E做VRRP,业务服务器直接下挂在两台75E下。连接服务器的接口均位于同一个二层vlan,且服务器之间的业务流量是目的mac为组播地址的UDP报文,设备侧只起二层相关功能,流量在设备侧广播转发。
报文内容如下。该报文为组播报文。
由于现场使用的是SA系列单板,该单板出方向不支持流统,所以无法通过流统确认丢包位置,之后通过show/c查看,发现丢包的时候对应的接口有hold.ge计数,表明发生了拥塞丢包。
经查,现场存在两个方面问题:
现场挂接服务器的3槽,部分连接服务器的端口因为网线水晶头的原因,协商为了10M,存在持续性拥塞情况,会将整个芯片的动态缓存占满,当其它端口有较高流量时,会导致交换机缓存不足,出现丢包
将10M、100M端口消除后,丢包情况大为缓解。
此外,现场流量存在周期性突发,经过抓包确认,每间隔5分钟,UDP组播流量会突增,从而出现拥塞导致业务会有少量丢包。如下图所示,圆圈标注的部分即出现了流量突发,报文数从4800pps增长到了约8000pps(注:流量从开始的1000pps中途变到4800pps是因为客户侧测试增加了测试的报文数目)。
现场使用的UDP组播(客户侧确认业务模型即如此),由于所有端口都属于同一VLAN,流量会在属于相同vlan所有端口广播里,这种情况会极大消耗交换机的缓存资源。
该7506E交换机现场使用的板卡LSQ1GV48SA,芯片缓存2M(24口共享),用来实现存储转发结构中的队列、调度等功能,可以在一定程度上应对流量的突发。该单板的芯片缓存较小,应对突发广播流量的能力是比较弱的。
芯片对缓存管理,是以Cell为单位进行的。每个Cell对于不同芯片,大小不同,LSQ1GV48SA板卡,总共有16384个Cell,每cell 128
byte,有静态Cell和动态Cell两部分组成,
静态CELL每端口可保证一个1536 byte大包可以缓存。
当一个芯片上有10M口持续拥塞时,这个端口会将动态Cell耗光,其它端口没有机会得到动态Cell,应对突发和报文广播能力下降,现场UDP组播测试流量,通过监控,约每秒4500个/秒组播报文,交换机收到UDP组播流量后,向所有属于同一个vlan的端口泛洪。这样就需占用单板的芯片缓存,当流量突然达到8000个/秒时,由于板卡芯片应对突发流量的能力约5500pps左右,就会出现交换机缓存不足造成业务系统丢包现象。
(1)排查突发流量,降低组播流速,经过排查,发现引起突发的流量为一台服务器,断掉改服务器后不再丢包。
(2)将部分服务器移到4槽,建议每芯片连接的服务器(使用UDP组播业务)不超过18个端口。
(3)UDP组播看能否使用组播转发表项的方式,指定特定口转发,而不是全端口广播,能降低缓存的使用消耗。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作