Print

跨产品线问题处理系列:无线终端无法访问网页定位核心交换机转发规格瓶颈

2014-07-25 发表

跨产品线问题处理系列:无线终端无法访问网页定位核心交换机转发规格瓶颈

一、组网:

某局点组网由有线核心交换机、无线核心交换机、汇聚交换机、ACAP组成,设备之间的物理端口连接如图。ACAP之间为集中转发,AC上开启二层Portal认证,无线用户网关位于无线核心交换机上。

二、问题描述:

某些无线终端(以122.207.16.229为例)无法访问网页(以百度网页www.baidu.com为例)。

三、过程分析:

1AC排查过程

ACdisplay connection发现该无线终端(122.207.16.229)在线,排除Portal认证问题。ping AC上相同VLAN的三层接口地址正常,无线终端和AC之间通信是正常的。其他关联同AP的无线终端中有终端可以正常访问网页,即相同的空口环境、AC-AP之间链路和AC设备的情况下,终端打开网页表现不同,怀疑问题点可能在其他设备或链路上。

进一步在该无线终端所关联AP的有线口抓包(AP上联的接入交换机上做本地镜像),抓包时无线终端尝试访问百度网页。现网DHCP Server为无线终端分配的DNS服务器的IP地址为202.197.96.1,过滤无线终端与DNS服务器之间的交互报文( ip.src == 122.207.16.229 && ip.dst == 202.197.96.1 ) || (  ip.src == 202.197.96.1 && ip.dst == 122.207.16.229 ),发现DNS服务器解析百度服务器对应的IP地址为61.135.169.12561.135.169.105

过滤无线终端与百度服务器之间的交互报文( ip.src == 122.207.16.229 && ip.dst == 61.135.169.125 ) || (  ip.src == 61.135.169.125 && ip.dst == 122.207.16.229 ),发现无线终端向百度服务器发送的TCP连接未得到回应,百度服务器向无线终端发送报文的丢在了网络中。

2AC、无线核心交换机排查过程

需定位百度服务器向无线终端发送报文的丢包位置,在AC和无线核心交换机上针对无线终端122.207.16.229与百度服务器61.135.169.125 TCP 80端口之间的报文做流量统计,发现无线核心交换机对百度服务器向无线终端发送报文存在丢弃的情况。

3.无线核心交换机排查过程

问题发生时在无线核心交换机上收集diag信息,简要结论(详细原理及结论请咨询相应产品二线)如下:

1)现网设备S10508的板卡有主控板LSU1SUPA0、接口板LSU1TGS16SC0、防火墙板LSQ1FWBSC0ACLSU3WCMD0S10508为分布式设备,主控板LSU1SUPA0内联口学习到的ARP等表项必须全局同步到所有业务板卡才能正常工作。

2SC类业务板卡规格情况:(项目中的接口板LSU1TGS16SC0、防火墙板LSQ1FWBSC0

业务板卡配置为普通模式时:

iphost表项8KARPND共同占用,其中一个ARP占用一条表项,一个ND占用两条表项。

NH表项8KARP NH ND NH共同占用,其中一个ARP占用一条表项,一个ND占用一条表项。

业务板卡配置为标准IPV6模式时:

ND表项8K:一个ND占用两条表项。

ARP表项8K:一个ARP占用一条表项。

NH表项8KARP NH ND NH共同占用,其中一个ARP占用一条表项,一个ND占用一条表项。

3)现网高峰期时无线终端关联用户数6500左右,无线用户网关位于S10508上,同时现网存在IPv6应用,再考虑到S10508上设备互联、设备管理所占用的ARP等表项,业务高峰期时S10508存在规格瓶颈,具体为接口板LSU1TGS16SC0、防火墙板LSQ1FWBSC0的规格瓶颈,导致ARP等表项不能全局同步到所有业务板卡上。

四、解决方法:

局点更换高规格表项的板卡,问题解决。在无线用户网关位于核心交换机上、无线用户接入量大的场景,排查问题时需综合考虑包括核心交换机在内的相关设备的转发规格瓶颈问题,避免问题关注点集中在无线设备上而导致无法定位问题或定位问题耗时太长。