AC旁挂核心——汇聚——OLT交换机——ONU——AP(全部采用本地转发模式)
(AP型号包括WA6522H-HI,WA6320H和其它wifi5型号)
不涉及
该局点之前有多台WA6320H和其它wifi5型号AP正常使用。
某日新到一批WA6522H-HI AP,上午将一栋楼中安装的100余台WA6522H-HI AP通过自动注册的方式注册到AC上。
观察发现这100余台AP从AC下载ipe版本后全部上线变为R/M状态,但过了不到2 min,在AC上display wlan ap all发现所有AP全部离线(变为I状态),AC上display wlan ap sta tunnel-down-record记录的掉线原因是重传超时(Failed to retransmit message)。
此后,每隔一段时间(粗略估计十几分钟),在AC上查看随机有个位数的AP变为R/M状态,AC上display wlan ap name xxx address也能查询到这些AP的IP地址,但AC无法ping通它们,且尝试在Probe视图开启允许telnet这些AP的命令时也会失败,原因与当时AP已经离线有关。
故障仅涉及这一栋楼,这一栋楼安装的全部是WA6522H-HI型号AP。
首先,结合现场故障现象,通常有以下几种可能导致AP在线不稳定;
(1) AC和AP之间链路不稳定,导致AC和AP之间丢包严重:但是该局点其它楼栋的其它型号AP均稳定在线,因此将怀疑点转移到该楼栋的汇聚上,但是在汇聚上下行有线口查看并没有错包,而且将WA6522H-HI拆下,PC连接上去后能正常获取IP地址,且ping通AC没有丢包,先暂时不考虑这种可能,但此时发现PC仍然ping不通所有的AP;
(2) 该汇聚下AP上行有线口组播/广播流量大,把AP打掉:通过PC在连接AP的有线口抓包分析发现,组播/广播流量并不大,排除这种可能;
(3) 检查AC上的配置并未发现有可能导致AP频繁掉线的异常配置;
(4) 核心交换机上DHCP Server是否存在问题:这里由于PC连接AP上行的有线口可以获取IP地址,应该可以排除,但为了谨慎期间,还是在核心DHCP Server进行了检查,发现给AP分配了IP地址且没有到达租期,但核心同样无法ping通AP。
(5) 该型号AP存在软件问题导致频繁异常重启:排除以上四种可能后这种可能性变得非常大。为了验证这一设想:把该型号WA6522H-HI AP和另一栋楼运行正常的WA6320H进行位置对调,发现WA6320H仍能稳定在线,而WA6522H-HI的故障现象依旧。
在这一背景下,WA6522H-HI软件问题的疑点变得非常大,但由于其在线时间太短,我们无法通过telnet进入AP中查看。
更为要命的是:该AP是面板款型,串口形式是四根杜邦线的特殊类型,这样现场工程师携带的console线也没有了用武之地,导致我们完全没有办法观察到AP内部的运行情况。
无巧不成书:现场使用的是OLT交换机,使用ONU与AP连接,也就是说AP的对端设备端口的情况也无法查看。
一时间无从下手,感觉是针插不透、水泼不进的铁桶阵,已然毫无办法!!!
(6) 但是,我们忽略了一种可能性:那就是AP其实拿到了IP地址,原则上可以ping通AC及其它地址,但由于某种原因AP的上行有线口配置发生了改变,导致原本能通的有线口变得不通了。什么操作具有这样的功能了,排除了其它因素后只剩下map文件这一种可能。
上图就是现场使用的map文件,注意WA6320H和WA6622H-HI都是使用的这个map文件下发配置,其作用是在AP上添加vlan,放通AP的上行口trunk vlan all,然后AP的所有下行有线口设置为access vlan 7。
但同样使用该map文件的WA6320H为什么可以稳定在线呢?这里我们暂时无法回答。
观察这个map文件的配置总觉得哪里不对劲,但无法名状,抱着试一试的态度,我们选取了几台AP,手动去掉了给它们下发map文件的配置,发现这几台AP竟然能够成功上线并稳定在线,说明这个map文件一定存在问题!!!
遂即我们telnet到已经上线的W6522H-HI AP上,逐条输入了map文件的配置,发现红框中的两条配置是导致问题的关键:
首先,红框前的配置经验证没有问题,而在输入:int range g 1/0/2 to 1/0/5之后发现提示错误如下。也就是说,根据map文件的执行顺序,在完成对int g 1/0/1(AP上行口)配置后希望通过int range g 1/0/2 to 1/0/5跳转到下行口进行配置但没有成功,实际后面的配置还是加载到了int g 1/0/1(AP上行口)上,而且由于现场工程师的谨慎态度(port link-type access)导致int g 1/0/1(AP上行口)又被从trunk vlan all变成了accesss vlan 7,当然就与上行有线设备不通了。
于是,这个问题的产生原因就清晰了:
AP启动 → 获取IP → AP上线 → map文件下发 → map错误配置导致AP上行口被改为不通 → AC ping AP不通,也无法telnet → AP掉线 → 10 min未上线AP重启,然后重复以上过程。
在回到之前的疑问,为什么WA6320H使用这个map文件没有问题呢?通过仔细查询两款设备的官网介绍发现了端倪,原来:
WA6320H有四个下行口(G1/0/2 to G1/0/5)
而WA6522H-HI只有三个下行口(G1/0/2 to G1/0/4)
我们将map文件的命令改为:int range g 1/0/2 to 1/0/4,在执行后续port link-type access 和port access vlan 7后发现WA6522H-HI也能正常上线。
于是,这个问题就此解决。
针对这个案例,我们有三个点需要反思:
(1) 使用MAP文件给AP下发配置的时候,如果更换了AP的型号,一定不要照搬之前的配置,要对MAP文件配置先在上线AP上敲一下,确保没有问题后再先给少量AP下发,确保正常后再大范围推广使用;
(2) MAP文件的执行相当于一个自动化的脚本,建议尽可能使用出错率低的配置。
类似:int range g 1/0/2 to 1/0/5的出错概率相比于分别跳转到每个口下,然后分别配置要高,建议以后不要使用,且用如下配置替代:
int g 1/0/2
port access vlan 7
int g 1/0/3
port access vlan 7
int g 1/0/4
port access vlan 7
int g 1/0/5
port access vlan 7
(3) 随着面板AP使用越来越多,使用类似异性串口设备也在增长,建议为现场工程师普及类似异性串口线,这样出现类似故障时能及时console到AP中,故障就能很快被定位了。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作