知

某局点特殊时间段无线控制器CPU利用率高达100%，设备卡顿的经验案例

2017-03-15 发表

0关注
0收藏 1742浏览

张自成

张自成四段

粉丝：2人关注：0人

现场反馈最近网络出现每天上班时间八点半至九点半之间无线网络卡顿，故障时候登录设备，几乎无法操作，无法采集诊断信息。

由于故障时候无法操作设备，待网络正常之后采集了诊断信息发现：

===============display cpu-usage history===============

100%| # ## ########### ## ###

95%| ## ### ################ # ######

90%| ### #### ############################ # #########

85%| ### #################################################

80%| ######################################################

75%| ######################################################

70%| ######################################################

65%| #######################################################

60%| #######################################################

55%| ########################################################

50%|############################################################

45%|############################################################

40%|############################################################

35%|############################################################

30%|############################################################

25%|############################################################

20%|############################################################

15%|############################################################

10%|############################################################

5%|############################################################

CPU的历史记录确认存在100%的情况，再查看具体的进程

===============display process===============

45 45 23.1 0.0 D 115 - 25:04:28 [Rcv-SingleCPU0]

46 46 14.2 0.0 D 115 - 17:26:07 [Rcv-SingleCPU1]

正常的时候设备cpu利用率主要进程是上面这两个，这两个是软件收包的进程，然后在接口下发现

Input (total): 720429141 packets, 424569144855 bytes

628430760 unicasts, 389678 broadcasts, 91608703 multicasts, 0 pauses

Input (normal): 720429141 packets, 424569144855 bytes

628430760 unicasts, 389678 broadcasts, 91608703 multicasts, 0 pauses

有大量的组播报文，甚至超过了单播的数量。所有怀疑是组播类攻击或者业务，以至于存在异常报文冲击导致的软件收发报文进程CPU高。

想要具体定位故障时间点上送CPU报文的具体情况可以通过下面的方式来采集。

在probe模式下：

fpl-diag showcpstat //该命令执行之后可以看到1到32号的协议

********************fpl showcpstat: start ****************************
Idx Proto          Rx                   Drop                 RxSpeed(pps)
---------------------------------------------------------------------
1 dot1x          0                 0                    0
2 dhcp           41182              0                    0
3 igmp           170491               0                  0
4 ntp            0                0                    0
5 arp            2038531              0                   9
6 snmp           0                0                    0
7 telnet         64531                0                   2
8 icmp           0                0                    0
9 icmpv6_nd      0                    0                   0
10 icmpv6_other   0                    0                    0
11 iactp          0                 0                    0
12 acsei          0                 0                    0
13 http           0                 0                   0
14 udp            27943              0                    0
15 tcp            9252126              0                  22
16 ip             14721             0                    0
17 ipv6           0                0                    0
18 ethernet       14722                0                    0
19 radius         0                 0                    0
20 vrrp           0                0                    0
21 capwap_ctrl    10786932             0                    22
22 capwap_data    506962669            0                    4506
23 dot11_auth     0                    0                   0
24 dot11_assoc    777658               0                    4
25 dot11_reassoc 90                   0                    0
26 dot11_null     231                  0                    0
27 dot11_disassoc 0                    0                    0
28 dot11_deauth   0                    0                    0
29 dot11_action   0                    0                    0
30 dot11_ctrl     224922               0                    1
31 portal_syn     0                    0                   0
32 lacp           0                    0                0

接着执行这条命令：

fpl-diag showcplog 5,9,8,30,50 //该命令查看5号协议的arp在日期9号 8点30分之后的50条记录

1分钟记录一条，比如下面：

[XESPY_ZD_AC1-probe]fpl-diag showcplog 5,9,8,30,80

idx proto            date            rx      drop         delta
--------------------------------------------------------------------------
7144 arp              08:30:12 02/09/2017 1821692      0            50
7145 arp              08:31:12 02/09/2017 1821742      0            50
7146 arp              08:32:12 02/09/2017 1821810      0            68

其中idx proto表示协议号，date为时间，delta为增长速度，我们需要知道CPU高的时候哪种协议报文上送CPU的增长速度快，依次来判断定位具体原因。

配合现场收集的现象8：30~9：30 这个时间段的CPU规律性变高，可以证明高峰期的时候存在大量报文冲击AC 造成设备繁忙。

目前计划如下优化策略：

1、开启无线的二层隔离，广播隔离。

2、检查vlan配置，AC对端设备接口不要配置没有必要的vlan，防止其余vlan报文上送AC。虽然AC不转发但是硬件还是会进行处理。

3、如果是异常报文或者某些固定终端IP发出的报文，可以采取包过滤的方式暂时消除故障，再去排查终端。

若复现CPU过高，可以通过dis cpu-usage history job + job号来回溯进程一个小时内的使用情况，目前看来基本上就是软件收发报文这个进程过高导致的。

对于固定时间段设备CPU利用率高，设备卡顿的情况，无法采集实时信息的情况，可以通过上述方法来定位具体是哪种报文上送CPU导致的，另外也可以进行抓包，具体查看是否存在大量异常攻击报文，比如组播，比如icmpv6报文等等来定位网络中是否存在异常主机或者攻击。

该案例对您是否有帮助：

您的评价：1

若您有关于案例的建议，请反馈：

作者在2019-06-12对此案例进行了修订

0 个评论

该案例暂时没有网友评论

编辑评论

侵犯我的权益 >

对根叔知了社区有害的内容 >

辱骂、歧视、挑衅等（不友善）

侵犯我的权益

泄露了我的隐私 >

侵犯了我企业的权益 >

抄袭了我的内容 >

诽谤我 >

辱骂、歧视、挑衅等（不友善）

骚扰我

泄露了我的隐私

您好，当您发现根叔知了上有泄漏您隐私的内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱，我们会尽快处理。

1. 您认为哪些内容泄露了您的隐私？（请在邮件中列出您举报的内容、链接地址，并给出简短的说明）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）

侵犯了我企业的权益

您好，当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱，我们会在审核后尽快给您答复。

1. 您举报的内容是什么？（请在邮件中列出您举报的内容和链接地址）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）
3. 是哪家企业？（营业执照，单位登记证明等证件）
4. 您与该企业的关系是？（您是企业法人或被授权人，需提供企业委托授权书）

我们认为知名企业应该坦然接受公众讨论，对于答案中不准确的部分，我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

原文链接或出处

诽谤我

您好，当您发现根叔知了上有诽谤您的内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱，我们会尽快处理。

1. 您举报的内容以及侵犯了您什么权益？（请在邮件中列出您举报的内容、链接地址，并给出简短的说明）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）

我们认为知名企业应该坦然接受公众讨论，对于答案中不准确的部分，我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔知了社区有害的内容

垃圾广告信息

色情、暴力、血腥等违反法律法规的内容

政治敏感

不规范转载 >

辱骂、歧视、挑衅等（不友善）

骚扰我

诱导投票

不规范转载

举报说明

✖

案例意见反馈

➤

网站相关: 关于我们; 服务条款; 帮助中心; 经验与权限; 积分规则

联系我们: 联系我们; 建议反馈

常用链接: 标杆的神器下载

关注我们: H3C官网; 新华三服务公众号; 安仔远程运维服务; 新华三商城

内容许可: 除特别说明外，用户内容均可采用知识共享署名-相同方式共享3.0中国大陆许可协议进行许可

本图标版权归新华三集团所有，仅限本社区使用，切勿用做商业目的，违者必究

浙ICP备09064986号-1 浙公网安备 33010802004416号

✖

亲~登录后才可以操作哦!

确定

✖

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

✖

你的邮箱还未认证，请认证邮箱或绑定手机后进行当前操作

✖

产品线		搜索取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式	默认策略匹配全词匹配整句

某局点特殊时间段无线控制器CPU利用率高达100%，设备卡顿的经验案例

编辑评论

提出建议