• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

某局点AC CPU利用率高问题经验案例

  • 0关注
  • 0收藏 2804浏览
樊昊 九段
粉丝:49人 关注:3人

某客户反馈我司LSQ1WCMD0设备CPU使用率过高,导致无法正常配置,网管平台持续报警。


CPU高


通过一线反馈现场AC配置,以及现场情况,近期现场做过的变更。现场最近测试WSM系统,看到taskAGENT进程占用了较多CPU

#

 snmp-agent

 snmp-agent local-engineid 800063A20380F62ED4486F

 snmp-agent community read public

 snmp-agent community write private

 snmp-agent sys-info version all

 snmp-agent target-host trap address udp-domain 202.38.193.215 params securityname public v2c

#

于是先安排现场对WSM组件进行优化,在iMC管理页面,打开设备的详细信息页面,在详细页面的右边一栏中,查看设备轮询参数为多少。

1.  无线终端轮询周期设置为30分钟

方法:在iMC服务器的安装目录下,找到imc/server/conf/qvdm_wlan.conf,先备份“qvdm_wlan.conf”文件,查看原文件中“StaPollIntv”字段。

优化之后CPU有所下降AGNT进程占用CPU控制在15左右,观察一段时间后,又出现CPU占用到100%的情况,隐藏命令模式,查看task

发现:[AC-master-hidecmd]dis cpu task

===== Current CPU usage info =====

CPU Usage Stat. Cycle: 8 (Second)

CPU Usage            : 100%

CPU Usage Stat. Time : 2015-06-25  15:39:42

CPU Usage Stat. Tick : 0x64b(CPU Tick High) 0xe070e7cb(CPU Tick Low)

Actual Stat. Cycle   : 0x0(CPU Tick High) 0x20a32455(CPU Tick Low)

 

 

TaskName        CPU        Runtime(CPU Tick High/CPU Tick Low)

CTLT             0%               0/   15bc2

TICK             1%               0/  6cfa90

STMR             3%               0/ 14aaecb

IPCT             0%               0/   daa6d

DrTC             0%               0/  20d244

MCIN             0%               0/   10e20

IPCB             0%               0/  18235f

RPCQ             0%               0/  154110

  VP             0%               0/     42e

ADJ6             0%               0/    ccc3

IPCM             0%               0/   1a29c

INFO             0%               0/     66e

 DEV             0%               0/   b0af7

SOCK             0%               0/   81c7e

ADJ4             0%               0/   27ba9

SFLW             0%               0/   384a8

 ACL             0%               0/   489a3

LAGG             0%               0/   1a1a5

MSTP             0%               0/   19b2a

LLDP             0%               0/   15f92

PTMT             2%               0/  db993f

PTTP             3%               0/ 1093128

 ARP            14%               0/ 4d8f59e

  IP             0%               0/  15e60c

 NQA             0%               0/   c84f6

FSLH             0%               0/   152d3

FSLR             0%               0/   5c7b5

NTPT             0%               0/   18357

VTYD             0%               0/   924dc

DHCC             0%               0/    991b

DHCP             6%               0/ 1fb9c50

DHP6             2%               0/  ceda8b

  ND             7%               0/ 27179aa

AGNT            17%               0/ 5b56e8a

TRAP             0%               0/    1095

DT1X             3%               0/ 107337a

 ACM             2%               0/  ae859c

  LS             0%               0/   88e37

RDSO             0%               0/   a8a15

 RDS             0%               0/  3e7f3c

  SC             1%               0/  556af2

 IKE             0%               0/  32a8ef

MACA             4%               0/ 150fd58

WAPI             0%               0/   9f13a

PSEC             0%               0/   2360a

ULOG             0%               0/   b0e2c

STND             0%               0/   23527

ROUT             0%               0/  13e14d

WMAC             4%               0/ 186db48

WIDS             0%               0/   6c9fb

WRRM             0%               0/   6e49a

CWMS             0%               0/   2b8d3

LWPS            19%               0/ 659e863

 WVB             0%               0/   1739d

WBKP             0%               0/   5d852

IACT             0%               0/   14c01

WBNJ             0%               0/   5e54c

IFNT             0%               0/   1f230

FTMT             0%               0/   b54d5

FTMC             0%               0/   8d05b

 au0             1%               0/  610448

CPU占用到100%

其中ARP占用较多,现场有ARP攻击的可能性,于是开启防止ARP攻击功能:

anti-attack enable                                                        

anti-attack protocol arp enable                                           

anti-attack protocol arp flow-threshold 30    

配置ARP有所下降。

LWAPP进程较高,查看配置,发现现场热备没有启用单独vlan,且热备心跳时间没有按照公告修改为2000,该处ARP攻击会导致AC热备心跳断开,进而进一步触发了AP主备切换,大量的AP频繁切换,上线下线,进一步加剧了CPU高的问题。并且该处发现主备AP配置不同。

于是修改心跳间隔为2000,且设置单独的vlan,同时修改主备配置保证同步。

#

 hot-backup enable domain 1

 hot-backup vlan 651

 hot-backup hellointerval 2000

#

这些配置修改之后:

1. arp攻击目前通过总限速和流限速已经防住;

2. 在处理完arp攻击,并开启ap冷备,此时arp任务下降,ap没有出现链路切换,仍然出现cpu卡顿,但此时不会出现cpu 100%告警,各种任务的利用率都比较正常,没有明显偏高的情况。

但是观察几天之后,又发现CPU利用率告警。进一步分析,发现与IP v6相关。

通过对送控制平面报文历史记录进行观察,发现在开启ipv6后,default类型报文送控制平面流量不稳定,有时会大量增加。如下加粗部分,

关闭ipv6后,default流量会明显减小,每分钟也就几百pps

 

 

idx proto            date                 rx           drop         delta

--------------------------------------------------------------------------

4205 default          15:16:05 06/30/2015  21352183     27630461     4349

4206 default          15:17:05 06/30/2015  21356470     27630461     4287

4207 default          15:18:05 06/30/2015  21361561     27630461     5091

4208 default          15:19:05 06/30/2015  21366239     27630461     4678

4209 default          15:20:06 06/30/2015  21372084     27630461     5845

4210 default          15:21:06 06/30/2015  21376956     27630461     4872

4211 default          15:22:07 06/30/2015  21382793     27630461     5837

4212 default          15:23:13 06/30/2015  21405013     27765054     22220

4213 default          15:24:17 06/30/2015  21414698     27767319     9685

4214 default          15:25:21 06/30/2015  21424383     27770837     9685

4215 default          15:26:29 06/30/2015  21432832     27785073     8449

4216 default          15:27:36 06/30/2015  21447483     28022393     14651

4217 default          15:28:44 06/30/2015  21466325     28042212     18842

4218 default          15:29:51 06/30/2015  21477051     28056607     10726

4219 default          15:30:59 06/30/2015  21487600     28062556     10549

4220 default          15:32:05 06/30/2015  21502073     28071997     14473

4221 default          15:33:12 06/30/2015  21512462     28088208     10389

4222 default          15:34:19 06/30/2015  21521168     28101223     8706

4223 default          15:35:26 06/30/2015  21537726     28126847     16558

4224 default          15:36:29 06/30/2015  21540521     28130720     2795

4225 default          15:37:29 06/30/2015  21541408     28130720     887

4226 default          15:38:29 06/30/2015  21541835     28130720     427

 

 

通过对default类型细分查看到出现了大量mid(0x11)  type(0x00000002)类型消息,这种消息与ipv6有关。

[AC-master-hidecmd]fpl-diag showcpufcdefault

 

 

start .....

 

 

mid(0x11)  type(0x00000002): 1346937

mid(0x11)  type(0x00000004): 114024

mid(0x17)  type(0x00000001): 548903

mid(0x19)  type(0x00000000): 6

mid(0x43)  type(0x00000001): 113531

mid(0xf1)  type(0x00000001): 821649

end .....

 

 

这种消息有两个事件触发:

1) 数据平面IPv6转发过程中,在使能了重定向功能的前提下,如果发现入接口等于出接口,并且报文的源地址和接口地址在同一网段;

2) 数据平面IPv6转发过程中,如果遇到一些需要发送ICMP6错误报文的情形。 (这一点就是以往出现hop limit攻击的问题导致cpu高,已经通过undo ipv6 hoplimit-expires解决)

 

 

只有可能是第一个原因引起,该现象出现肯定是开启了ipv6 redirects enable,且网络中出现了大量触发redirect回应的报文,不排除是有这方面攻击.

根据default报文监控,在开启ipv6时,即使cpu未出现卡顿的情况下, mid(0x11)  type(0x00000002)消息速率就达到了100pps左右。在cpu开始出现卡顿,通过default历史记录看该消息类型达到了300pps以上。

大量的消息上送控制平面导致驱动消息接收处理任务任务繁忙,该任务不受平面监控,因此看不到有task高。

这么多的重定向报文肯定是不正常,怀疑网络中还是存在这中redirect攻击,目前没有办法查看该消息的攻击源,和处理hop limit攻击一样,可以通过关闭redirect功能解决。

关闭redirect功能后,该消息类型不再存在,业务正常,slaveping master4万余包没有出现问题。

[AC-master]undo ipv6 redirects     

[AC-master-hidecmd]fpl-diag clearcpufcdefault

[AC-master-hidecmd]fpl-diag showcpufcdefault

 

 

start .....

 

 

mid(0x11)  type(0x00000004): 8

mid(0x17)  type(0x00000001): 7

mid(0x43)  type(0x00000001): 4

end .....

 

 

[AC-master-hidecmd]fpl-diag showcpufcdefault

 

 

start .....

 

 

mid(0x11)  type(0x00000004): 14

mid(0x17)  type(0x00000001): 13

mid(0x43)  type(0x00000001): 7

进行以上调整后CPU恢复正常。

附:IP v6 redirect攻击

当主机启动时,它的路由表中可能只有一条到缺省网关的缺省路由。当满足一定的条件时,缺省网关会向源主机发送ICMPv6重定向消息,通知主机选择更好的下一跳进行后续报文的发送(与IPv4ICMP重定向消息的功能相同)。

设备在满足下列条件时会发送对主机重定向的ICMPv6重定向报文:

接收和转发数据报文的接口是同一接口;//本例AC 收到此类报文

被选择的路由本身没有被ICMPv6重定向报文创建或修改过;

被选择的路由不是缺省路由;

被转发的IPv6数据报文中不包含路由扩展头。


1. WSM组件未优化,按照公告优化; 

2. arp攻击,arp任务高,配置防ARP攻击

anti-attack enable 

anti-attack protocol arp enable                         

anti-attack protocol arp flow-threshold 30

3  AC出现cpu卡顿,不响应命令,长时间ping不通

4. 热备vlan未独立,并综合问题2)和3)导致AC发生主、备切换、回切,ap重关联,client重新上下线再次加剧cpu负担,达到100%;设置独立vlan,加大hello间隔

hot-backup enable domain 1

hot-backup vlan 651

hot-backup hellointerval 2000

5.开启了ipv6 redirects enable,现场存在攻击,关闭该功能:

ipv6 redirects enable

undo ipv6 redirects


该案例对您是否有帮助:

您的评价:1

若您有关于案例的建议,请反馈:

作者在2019-06-12对此案例进行了修订
0 个评论

该案例暂时没有网友评论

编辑评论

举报

×

侵犯我的权益 >
对根叔知了社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔知了社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作