某客户使用两台我司SecPath L5000-C做为互联网出口设备,负载均衡设备使用出链路负载均衡功能实现出链路负载。组网试为两台负载均衡设备做IRF主备组网,出口设备对外使用5个reth口工作,每个reth口的成员口均为千兆电口;设备上配置大量的服务器负载均衡和出链路负载均衡配置,本次受影响的业务主要是出链路负载均衡。设备上5个出口同时工作在不同的链路组中,被不同的虚服务策略调用。
后续分析设备诊断和日志信息,有如下告警
%@96^Jan 18 12:29:10:339 2024 H3C-L5000-C DIAG/1/CPU_EXCEED_THRESHOLD:
CPU utilization in 5 secs: 90.80%; 1 min: 91.52%; 5 mins: 45.40%.
%@97^Jan 18 12:41:10:468 2024 H3C-L5000-C DIAG/1/CPU_EXCEED_THRESHOLD:
CPU utilization in 5 secs: 70.34%; 1 min: 72.8%; 5 mins: 70.84%.
%@28^Jan 18 12:28:03:958 2024 H3C-L5000-C DIAG/5/MEM_ALERT:
23207 48321 32 0 819 8 59 59 lb_se_cache_tack
0 0 88 0 341 8 0 0 lb_se_cache_ext
8991161 8992170 40 0 682 8 13185 13185 lb_se_cache_base
8836854 8836854 72 0 409 8 21606 21606 NAT_SESSION_EXT_INFO
8842208 8842240 24 0 1024 8 8635 8635 LOG_NAT_EXT_INFO
用户业务流量经过负载均衡设备出现异常不通,丢包等现象。
通过抓包确认,确实存在负载均衡设备丢包的情况。收集设备的诊断、logfile和diagfile等信息检查发现,业务故障时间CPU的单核存在打满现象(设备单CPU被分成33个VCPU,每个VCPU极限值约是3.1%)
JID PID PPID Cpu State MEM 5Sec 1Min 5Min Name
371 371 2 25 R 0K 3.1% 3.1% 1.4% [kdrvdp25]
373 373 2 27 R 0K 3.1% 3.1% 1.4% [kdrvdp27]
后打开设备的top会话统计,发现设备存在某内网源地址是的大量异常会话,且占比较高;后检查确定该IP主机异常,停止该IP的主机后,负载均衡设备的cpu恢复正常,核心到公网114的ping包业务正常,不再出现丢包等。
问题结论:内网中存在异常的流量导致设备性能极限,出现丢包和异常。
临时规避措施:阻断异常的IP。关闭异常主机。
其他建议:建议外网口使用万兆接口,增加带宽。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作