某客户网络WX5540E一直正常,上午突然出现CPU利用率高达100%的情况,其中INFO进程高达60%。
收集信息如下图所示。
1、怀疑用户有debug命令未关闭,建议关闭后观察,但是情况依旧。
2、指导关闭info-center信息中心后,CPU利用率开始逐渐下降,现场最近没有进行任何配置变更,客户端数量也没有增加。
3、进一步收集信息分析发现,CPU利用率高的时候,还伴随ARP、WMAC、LWPS进程利用率偏高。
===== Current CPU usage info =====
CPU Usage Stat. Cycle: 59 (Second)
CPU Usage : 89%
CPU Usage Stat. Time : 2017-05-08 08:46:45
CPU Usage Stat. Tick : 0x9b2b(CPU Tick High) 0xf7e2a1a9(CPU Tick Low)
Actual Stat. Cycle : 0x1(CPU Tick High) 0xfcde8093(CPU Tick Low)
TaskName CPU Runtime(CPU Tick High/CPU Tick Low)
MCIN 0% 0/ 2091b
VIDL 11% 0/3cdf77fb
....
CTLT 8% 0/2b4fb2bf
CKPT 0% 0/ 2d6e
vt0 3% 0/14181b47
...
ARP 15% 0/500f09e3
...
WMAC 15% 0/50b6350f
...
LWPS 14% 0/4c1a4fed
WBKP 0% 0/ 13570a
WMAC进程:涉及无线终端相关模块,通常是大量终端上下线导致。
LWPS进程:涉及lwapp隧道相关模块,通常为大量AP上下线导致。
ARP进程:涉及ARP相关模块,通常为业务量大时开启了arp-snooping、或者大量终端同时请求arp信息,或内网出现arp攻击。
4、结合以上进程占用率情况的原因分析,确认现场存在大量AP上下线和终端关联的情况,之后由现场工程师排查定位,找到根本原因。
最终原因:客户在某个测试区有40多台AP,上千台无线测试终端,客户为了测试手机的Wi-Fi连接,人为让AP频繁上下线。上下线过程中伴随大量终端关联,同时也会产生大量日志告警,间接导致INFO进程高,最终导致整体CPU瞬间升高。
由于客户业务测试原因导致,目前通过对上送CPU的协议报文进行限速,来临时降低CPU利用率,配置方法参考《根叔的种子》-ping保护机制。待用户业务测试完毕后,再视情况取消限速。
通常大量AP、客户端出现突发性事件时会导致AC的CPU利用率高,但是要如何避免这种情况,我们应当如何防范呢?。我们总结了一下实际遇到容易导致CPU高的场景,维护中应当引起注意:
1、老版本AC升级版本时,会导致大量AP同时向AC下载版本。最新的软件版本已解决此类问题,在有大量AP注册上线的场景下,新版本会自动分批注册。
2、AC双机热备时,心跳时间过短,业务量稍微大一点时,导致超心跳超时,频繁出现AC主备倒换。
3、在有无线portal或802.1x认证场景,大量用户认证不通过时,会反复触发认证,导致设备CPU利用率高。
4、在有IMC WSM网管AC的情况下,建议对于采集量大的数据轮询时间设定不要太短,否则可能导致AGNT进程高。
5、未知原因的AP供电不稳定,导致大量上下线情况。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作