某局点采用S5830接入服务器丢包问题案例分析
一、 组网:
二、 问题描述:
客户在S5830(版本R1118)承载的网络中做搜索业务测试,在测试过程中发现有网络延迟过大,延时超过200ms,出现大量的TCP重传,导致搜索业务无法正常使用。
三、 过程分析:
根据客户反馈情况,我们第一反应是怀疑设备芯片存在丢包,但通过查看芯片统计,发现设备芯片并没有丢包记录。
为了进一步弄清楚问题原因,我们需要先了解一下客户的业务模型。搜索业务由服务器集群承载,每个集群200-300台服务器,由主引擎服务器、存储服务器、根服务器等组成。每台服务机运行多个虚拟机,业务数据包较小,一般不超过400KB,流量较小,但突发性强,服务器之间存在多打一的情况。根据客户业务应用的需要,单次搜索的过程平均要在50ms以下完成,超过50ms,则会认为此次搜索失败。对延时非常敏感。通过流统计的方式发现S5830的所有互连端口的出入方向流量统计报文数量都是一致的,说明S5830没有丢包,那么得进一步排查服务器是否存在丢包,登录服务器检查网卡收发包计数,结果发现在服务器网卡上有丢包统计。但问题的核心在于,丢包的服务器已经发送了流控帧给S5830设备,为何没有避免丢包的产生呢?这是由于现场的S5830所采用的版本默认并不进行流控的auto探测。至此,问题原因就比较明确了,因为S5830不响应服务器发送的流控帧导致服务器产生丢包,从而出现了业务延时大,恰巧客户业务对延时有要求,需要小于50ms,业务才能正常运行。
四、 解决方法:
将S5830设备软件升级到R1118+Patch 001或其后版本。
然后在S5830交换机上开启“流控”功能:在所有连接服务器的物理端口上都配置flow-control命令。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作