知

某局点AC CPU利用率高问题经验案例

2015-07-29 发表

0关注
0收藏 2966浏览

樊昊

樊昊九段

粉丝：49人关注：3人

某客户反馈我司LSQ1WCMD0设备CPU使用率过高，导致无法正常配置，网管平台持续报警。

CPU高

通过一线反馈现场AC配置，以及现场情况，近期现场做过的变更。现场最近测试WSM系统，看到task中AGENT进程占用了较多CPU。

snmp-agent

snmp-agent local-engineid 800063A20380F62ED4486F

snmp-agent community read public

snmp-agent community write private

snmp-agent sys-info version all

snmp-agent target-host trap address udp-domain 202.38.193.215 params securityname public v2c

于是先安排现场对WSM组件进行优化，在iMC管理页面，打开设备的详细信息页面，在详细页面的右边一栏中，查看设备轮询参数为多少。

1. 无线终端轮询周期设置为30分钟

方法：在iMC服务器的安装目录下，找到imc/server/conf/qvdm_wlan.conf，先备份“qvdm_wlan.conf”文件，查看原文件中“StaPollIntv”字段。

优化之后CPU有所下降AGNT进程占用CPU控制在15左右，观察一段时间后，又出现CPU占用到100%的情况，隐藏命令模式，查看task：

发现：[AC-master-hidecmd]dis cpu task

===== Current CPU usage info =====

CPU Usage Stat. Cycle: 8 (Second)

CPU Usage : 100%

CPU Usage Stat. Time : 2015-06-25 15:39:42

CPU Usage Stat. Tick : 0x64b(CPU Tick High) 0xe070e7cb(CPU Tick Low)

Actual Stat. Cycle : 0x0(CPU Tick High) 0x20a32455(CPU Tick Low)

TaskName CPU Runtime(CPU Tick High/CPU Tick Low)

CTLT 0% 0/ 15bc2

TICK 1% 0/ 6cfa90

STMR 3% 0/ 14aaecb

IPCT 0% 0/ daa6d

DrTC 0% 0/ 20d244

MCIN 0% 0/ 10e20

IPCB 0% 0/ 18235f

RPCQ 0% 0/ 154110

VP 0% 0/ 42e

ADJ6 0% 0/ ccc3

IPCM 0% 0/ 1a29c

INFO 0% 0/ 66e

DEV 0% 0/ b0af7

SOCK 0% 0/ 81c7e

ADJ4 0% 0/ 27ba9

SFLW 0% 0/ 384a8

ACL 0% 0/ 489a3

LAGG 0% 0/ 1a1a5

MSTP 0% 0/ 19b2a

LLDP 0% 0/ 15f92

PTMT 2% 0/ db993f

PTTP 3% 0/ 1093128

ARP 14% 0/ 4d8f59e

IP 0% 0/ 15e60c

NQA 0% 0/ c84f6

FSLH 0% 0/ 152d3

FSLR 0% 0/ 5c7b5

NTPT 0% 0/ 18357

VTYD 0% 0/ 924dc

DHCC 0% 0/ 991b

DHCP 6% 0/ 1fb9c50

DHP6 2% 0/ ceda8b

ND 7% 0/ 27179aa

AGNT 17% 0/ 5b56e8a

TRAP 0% 0/ 1095

DT1X 3% 0/ 107337a

ACM 2% 0/ ae859c

LS 0% 0/ 88e37

RDSO 0% 0/ a8a15

RDS 0% 0/ 3e7f3c

SC 1% 0/ 556af2

IKE 0% 0/ 32a8ef

MACA 4% 0/ 150fd58

WAPI 0% 0/ 9f13a

PSEC 0% 0/ 2360a

ULOG 0% 0/ b0e2c

STND 0% 0/ 23527

ROUT 0% 0/ 13e14d

WMAC 4% 0/ 186db48

WIDS 0% 0/ 6c9fb

WRRM 0% 0/ 6e49a

CWMS 0% 0/ 2b8d3

LWPS 19% 0/ 659e863

WVB 0% 0/ 1739d

WBKP 0% 0/ 5d852

IACT 0% 0/ 14c01

WBNJ 0% 0/ 5e54c

IFNT 0% 0/ 1f230

FTMT 0% 0/ b54d5

FTMC 0% 0/ 8d05b

au0 1% 0/ 610448

CPU占用到100%。

其中ARP占用较多，现场有ARP攻击的可能性，于是开启防止ARP攻击功能：

anti-attack enable

anti-attack protocol arp enable

anti-attack protocol arp flow-threshold 30

配置ARP有所下降。

LWAPP进程较高，查看配置，发现现场热备没有启用单独vlan，且热备心跳时间没有按照公告修改为2000，该处ARP攻击会导致AC热备心跳断开，进而进一步触发了AP主备切换，大量的AP频繁切换，上线下线，进一步加剧了CPU高的问题。并且该处发现主备AP配置不同。

于是修改心跳间隔为2000，且设置单独的vlan，同时修改主备配置保证同步。

hot-backup enable domain 1

hot-backup vlan 651

hot-backup hellointerval 2000

这些配置修改之后：

1. arp攻击目前通过总限速和流限速已经防住；

2. 在处理完arp攻击，并开启ap冷备，此时arp任务下降，ap没有出现链路切换，仍然出现cpu卡顿，但此时不会出现cpu 100％告警，各种任务的利用率都比较正常，没有明显偏高的情况。

但是观察几天之后，又发现CPU利用率告警。进一步分析，发现与IP v6相关。

通过对送控制平面报文历史记录进行观察，发现在开启ipv6后，default类型报文送控制平面流量不稳定，有时会大量增加。如下加粗部分，

关闭ipv6后，default流量会明显减小，每分钟也就几百pps。

idx proto date rx drop delta

--------------------------------------------------------------------------

4205 default 15:16:05 06/30/2015 21352183 27630461 4349

4206 default 15:17:05 06/30/2015 21356470 27630461 4287

4207 default 15:18:05 06/30/2015 21361561 27630461 5091

4208 default 15:19:05 06/30/2015 21366239 27630461 4678

4209 default 15:20:06 06/30/2015 21372084 27630461 5845

4210 default 15:21:06 06/30/2015 21376956 27630461 4872

4211 default 15:22:07 06/30/2015 21382793 27630461 5837

4212 default 15:23:13 06/30/2015 21405013 27765054 22220

4213 default 15:24:17 06/30/2015 21414698 27767319 9685

4214 default 15:25:21 06/30/2015 21424383 27770837 9685

4215 default 15:26:29 06/30/2015 21432832 27785073 8449

4216 default 15:27:36 06/30/2015 21447483 28022393 14651

4217 default 15:28:44 06/30/2015 21466325 28042212 18842

4218 default 15:29:51 06/30/2015 21477051 28056607 10726

4219 default 15:30:59 06/30/2015 21487600 28062556 10549

4220 default 15:32:05 06/30/2015 21502073 28071997 14473

4221 default 15:33:12 06/30/2015 21512462 28088208 10389

4222 default 15:34:19 06/30/2015 21521168 28101223 8706

4223 default 15:35:26 06/30/2015 21537726 28126847 16558

4224 default 15:36:29 06/30/2015 21540521 28130720 2795

4225 default 15:37:29 06/30/2015 21541408 28130720 887

4226 default 15:38:29 06/30/2015 21541835 28130720 427

通过对default类型细分查看到出现了大量mid(0x11) type(0x00000002)类型消息，这种消息与ipv6有关。

[AC-master-hidecmd]fpl-diag showcpufcdefault

start .....

mid(0x11) type(0x00000002): 1346937

mid(0x11) type(0x00000004): 114024

mid(0x17) type(0x00000001): 548903

mid(0x19) type(0x00000000): 6

mid(0x43) type(0x00000001): 113531

mid(0xf1) type(0x00000001): 821649

end .....

这种消息有两个事件触发：

1）数据平面IPv6转发过程中，在使能了重定向功能的前提下，如果发现入接口等于出接口，并且报文的源地址和接口地址在同一网段；

2）数据平面IPv6转发过程中，如果遇到一些需要发送ICMP6错误报文的情形。（这一点就是以往出现hop limit攻击的问题导致cpu高，已经通过undo ipv6 hoplimit-expires解决）

只有可能是第一个原因引起，该现象出现肯定是开启了ipv6 redirects enable，且网络中出现了大量触发redirect回应的报文，不排除是有这方面攻击.

根据default报文监控，在开启ipv6时，即使cpu未出现卡顿的情况下， mid(0x11) type(0x00000002)消息速率就达到了100pps左右。在cpu开始出现卡顿，通过default历史记录看该消息类型达到了300pps以上。

大量的消息上送控制平面导致驱动消息接收处理任务任务繁忙，该任务不受平面监控，因此看不到有task高。

这么多的重定向报文肯定是不正常，怀疑网络中还是存在这中redirect攻击，目前没有办法查看该消息的攻击源，和处理hop limit攻击一样，可以通过关闭redirect功能解决。

关闭redirect功能后，该消息类型不再存在，业务正常，slave长ping master4万余包没有出现问题。

[AC-master]undo ipv6 redirects

[AC-master-hidecmd]fpl-diag clearcpufcdefault

[AC-master-hidecmd]fpl-diag showcpufcdefault

start .....

mid(0x11) type(0x00000004): 8

mid(0x17) type(0x00000001): 7

mid(0x43) type(0x00000001): 4

end .....

[AC-master-hidecmd]fpl-diag showcpufcdefault

start .....

mid(0x11) type(0x00000004): 14

mid(0x17) type(0x00000001): 13

mid(0x43) type(0x00000001): 7

进行以上调整后CPU恢复正常。

附：IP v6 redirect攻击

当主机启动时，它的路由表中可能只有一条到缺省网关的缺省路由。当满足一定的条件时，缺省网关会向源主机发送ICMPv6重定向消息，通知主机选择更好的下一跳进行后续报文的发送（与IPv4的ICMP重定向消息的功能相同）。

设备在满足下列条件时会发送对主机重定向的ICMPv6重定向报文：

接收和转发数据报文的接口是同一接口；//本例AC 收到此类报文

被选择的路由本身没有被ICMPv6重定向报文创建或修改过；

被选择的路由不是缺省路由；

被转发的IPv6数据报文中不包含路由扩展头。

1. WSM组件未优化，按照公告优化；

2. arp攻击，arp任务高，配置防ARP攻击

anti-attack enable

anti-attack protocol arp enable

anti-attack protocol arp flow-threshold 30

3 AC出现cpu卡顿，不响应命令，长时间ping不通

4. 热备vlan未独立，并综合问题2）和3）导致AC发生主、备切换、回切，ap重关联，client重新上下线再次加剧cpu负担，达到100％；设置独立vlan，加大hello间隔

hot-backup enable domain 1

hot-backup vlan 651

hot-backup hellointerval 2000

5.开启了ipv6 redirects enable,现场存在攻击，关闭该功能：

ipv6 redirects enable

undo ipv6 redirects

该案例对您是否有帮助：

您的评价：1

若您有关于案例的建议，请反馈：

作者在2019-06-12对此案例进行了修订

0 个评论

该案例暂时没有网友评论

编辑评论

侵犯我的权益 >

对根叔知了社区有害的内容 >

辱骂、歧视、挑衅等（不友善）

侵犯我的权益

泄露了我的隐私 >

侵犯了我企业的权益 >

抄袭了我的内容 >

诽谤我 >

辱骂、歧视、挑衅等（不友善）

骚扰我

泄露了我的隐私

您好，当您发现根叔知了上有泄漏您隐私的内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱，我们会尽快处理。

1. 您认为哪些内容泄露了您的隐私？（请在邮件中列出您举报的内容、链接地址，并给出简短的说明）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）

侵犯了我企业的权益

您好，当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱，我们会在审核后尽快给您答复。

1. 您举报的内容是什么？（请在邮件中列出您举报的内容和链接地址）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）
3. 是哪家企业？（营业执照，单位登记证明等证件）
4. 您与该企业的关系是？（您是企业法人或被授权人，需提供企业委托授权书）

我们认为知名企业应该坦然接受公众讨论，对于答案中不准确的部分，我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

原文链接或出处

诽谤我

您好，当您发现根叔知了上有诽谤您的内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱，我们会尽快处理。

1. 您举报的内容以及侵犯了您什么权益？（请在邮件中列出您举报的内容、链接地址，并给出简短的说明）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）

我们认为知名企业应该坦然接受公众讨论，对于答案中不准确的部分，我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔知了社区有害的内容

垃圾广告信息

色情、暴力、血腥等违反法律法规的内容

政治敏感

不规范转载 >

辱骂、歧视、挑衅等（不友善）

骚扰我

诱导投票

不规范转载

举报说明

✖

案例意见反馈

➤

网站相关: 关于我们; 服务条款; 帮助中心; 经验与权限; 积分规则

联系我们: 联系我们; 建议反馈

常用链接: 标杆的神器下载

关注我们: H3C官网; 新华三服务公众号; 安仔远程运维服务; 新华三商城

内容许可: 除特别说明外，用户内容均可采用知识共享署名-相同方式共享3.0中国大陆许可协议进行许可

本图标版权归新华三集团所有，仅限本社区使用，切勿用做商业目的，违者必究

浙ICP备09064986号-1 浙公网安备 33010802004416号

✖

亲~登录后才可以操作哦!

确定

✖

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

✖

你的邮箱还未认证，请认证邮箱或绑定手机后进行当前操作

✖

产品线		搜索取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式	默认策略匹配全词匹配整句

某局点AC CPU利用率高问题经验案例

编辑评论

提出建议