• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

某运营商局点AP频繁上下线问题处理的经验案例

2012-10-12 发表
  • 0关注
  • 1收藏 3151浏览
粉丝:12人 关注:3人

某运营商局点AP频繁上下线问题处理的经验案例

一、   组网:

在某运营商WLAN网络中,客户使用了N+1AC备份组网。下联AP分布在不同热点。由城域网设备分配DHCPAP,通过对不同热点AP配置不同option43选项,控制AP注册到各自的Master AC上,同时使用另外一台ACBackup AC

二、   问题描述:

    AC1上有部分热点的AP出现频繁上下线。表现为同一热点所有AP注册AC 几分钟内就马上掉线。过一会大约3分钟又能上线,但接着马上又会掉线,如此反复,造成网管侧大量的AP上下线告警。

三、   过程分析:

   按常规思路分析,

(1)  检查了主AC1状态:察看CPU,正常,有其余大部分AP能稳定在线。确定主AC1状态正常。

(2)  排查网络故障:从主AC1上长ping APAP上线时,ping包无丢包和延时抖动。但几分钟后突然ping包全部无回应,AP马上就掉线。但约1分钟后又能再次ping通。远程telnet AP发现AP刚刚发生重启。于是在AP上抓取状态信息和debug wlan lwapp报文。在此确定为AP自动重起导致的AP掉线,不是AP掉线超长(约10多分钟)后AP重起。

(3)  分析AP自动重起原因,通过AP上抓取Debug信息分析如下:

*Oct 11 19:30:11:676 2012 WA1208E-GP-H20 LWPC/7/Pkt_Rcvd:  

 Received WTP Event Response from 218.201.117.51 (Length: 14)

 04 00 00 08 00 00 0f 0a 00 00 16 0c 30 71

*Oct 11 19:30:11:677 2012 WA1208E-GP-H20 LWPC/7/Pkt_Rcvd:  

 Received WTP Event Response from 218.201.117.51 (Length: 14)

 04 00 00 08 00 00 0f 0a 00 00 16 0c 30 71

*Oct 11 19:30:11:677 2012 WA1208E-GP-H20 LWPC/7/Pkt_Rcvd:  

 Received WTP Event Response from 218.201.117.51 (Length: 14)

 04 00 00 08 00 00 0f 0a 00 00 16 0c 30 71

*Oct 11 19:30:11:678 2012 WA1208E-GP-H20 LWPC/7/Pkt_Rcvd:  

 Received WTP Event Response from 218.201.117.51 (Length: 14)

 04 00 00 08 00 00 0f 0a 00 00 16 0c 30 71

*Oct 11 19:30:11:679 2012 WA1208E-GP-H20 LWPC/7/Pkt_Rcvd:  

 Received WTP Event Response from 218.201.117.51 (Length: 14)

 04 00 00 08 00 00 0f 0a 00 00 16 0c 30 71

*Oct 11 19:30:11:679 2012 WA1208E-GP-H20 LWPC/7/Pkt_Rcvd:  

 Received Reset Request from 218.201.117.51 (Length: 14)   //收到从AC过来的Reset请求

 04 00 00 08 00 00 1a 0b 00 00 16 0c 30 71

*Oct 11 19:30:11:680 2012 WA1208E-GP-H20 LWPC/7/Pkt_Send:  

 Sent Reset Response to 218.201.117.51 (Length: 14)

 04 00 00 08 00 00 1b 0b 00 00 16 0c 30 71

*Oct 11 19:30:11:681 2012 WA1208E-GP-H20 LWPC/7/Event:  

 [State : Run] Clear Context

*Oct 11 19:30:11:681 2012 WA1208E-GP-H20 LWPC/7/Event:  

 LWAPP to WMAC : Report AP-AC channel down status

*Oct 11 19:30:11:682 2012 WA1208E-GP-H20 LWPC/7/Event:  

 [Tunnel : Master State : Run] Notify WMAC Lwapp Channel Down

*Oct 11 19:30:11:683 2012 WA1208E-GP-H20 LWPC/7/Timer:  

 Deleted Echo-Req Timer 

*Oct 11 19:30:11:683 2012 WA1208E-GP-H20 LWPC/7/Timer:  

 Deleted Statistics Timer 

*Oct 11 19:30:11:684 2012 WA1208E-GP-H20 LWPC/7/Timer:  

 Deleted DataChannelKeepAlive Timer 

*Oct 11 19:30:11:685 2012 WA1208E-GP-H20 LWPC/7/Timer:  

 Deleted Key-Life Timer 

*Oct 11 19:30:11:685 2012 WA1208E-GP-H20 LWPC/7/FSM  :  

 Change State  : Run to Idle

*Oct 11 19:30:11:686 2012 WA1208E-GP-H20 LWPC/7/Event:  

 Set AP CAPWAP FSM State from 6 to 0, Ret: 8.             

%Oct 11 19:30:11:731 2012 WA1208E-GP-

H20 WMSH/6/WMESH_ENTER_ZERO_CFG_STATE:  The device has entered zero configuration state.

%Oct 11 19:30:12:591 2012 WA1208E-GP-

H20 DEVM/5/BOARD_REBOOT: Board is rebooting on Chassis 0 Slot 1.    //系统自动重启

在此确定AP重起原因为AC主动Reset导致,但并未找到Reset的元凶。

(4)  继续排查AC Reset原因。但察看AC log日志发现近期并无人操作AC和执行Reset操作。到底何人使坏?经过细致分析,在AC上通过display wlan ap all verbose查看APTunnel down reason,显示为 Tunnel Down Reason : AP Config Change

于是对比AP在主备AC的配置,发现备AC比主AC上少了一个该APradio下服务模板的绑定,如下:

AC下:

 radio 1

  channel 11

  radio-policy 11g

  service-template 1 vlan-id 117

  service-template 2 vlan-id 117

  service-template 3 vlan-id 117

  service-template 30 vlan-id 3000 nas-id 6567053253100460

  radio enable

 

AC下:

 radio 1

  channel 11

  radio-policy 11g

  service-template 1 vlan-id 117

  service-template 2 vlan-id 117

  service-template 3 vlan-id 117

  radio enable

(5)  到这里基本确定为主备AC配置不同步导致主AC1 Reset AP引起AP掉线。但是N+1备份实际上为冷备,正常情况下主备AC配置不同步按道理不会影响AP的注册,更不可能导致AP频繁掉线。问题一定出在AP的注册过程上。

(6)  于是从AP的初始注册过程查起。发现一个重要问题,AP 通过DHCP Option43获取了两台ACIP地址,但有一个地址居然是错误的,只有备AC的地址有效。于是找到了问题的症结所在:Option43只正确添加备ACIP地址,同时主、备AC上对部分热点AP的配置不同步(漏缺服务模板配置)。向客户询问,确定问题发生当天DHCP Server确实被修改过配置,协调客户更改配置后,AP稳定上线。下面再详细分析下这样的配置错误如何导致AP频繁上下线。

故障原因的详细理论分析:

第一步AP启动后,通过DHCP Option43只获取了N+1备份的备AC ip地址,AP向备AC发起注册请求并成功上线;

第二步AP在备AC上线后,由于备AC配置back-up AC为主AC1AP会向主AC1发起注册请求。且同时主AC1优先级为7高于备ACAP会切换主隧道到AC1AP在主AC1成功上线,状态为Run/M

第三步由于N+1备份的备切主过程实际上是热备切换,AP会继承了原备AC上的服务模板配置。导致AP在主AC1上线后,主AC1检查AP的实际配置发现AP配置和current-configuration不一致,于是ResetAP下线,导致AP发生重起。

如此反复循环。

四、   解决方法:

1)修改DHCP ServerOption43选项,添加正确的主、备AC地址。

2)修改主、备AC的配置同步。

注:实际上单独用方法(1)或者方法(2)都能排除故障。在这里再次强调一下主、备AC配置同步的重要性。主、备配置不同步可能导致的后果非常严重,例如:STA无法成功关联APnas-id错误导致移动话单无法生成,还有本案例的AP频繁重起上下线。

该案例对您是否有帮助:

您的评价:1

若您有关于案例的建议,请反馈:

作者在2019-06-12对此案例进行了修订
0 个评论

该案例暂时没有网友评论

编辑评论

举报

×

侵犯我的权益 >
对根叔知了社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔知了社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作