轨道交通维护-车载网络环路排查案例
一、 组网
业务组网概要:
某省市地铁PIS系统使用我司设备搭建组网,站台与中心网络通过RRPP环路连接(全线共计3个独立环),轨旁网络使用WA2220X-AGP+八木天线部署,且AP通过光电转换器连接到站台交换机,列车车载网络使用车尾WX2220E-AG-T通过MESH链路与中心网络建立连接。正常情况下,中心网络组播服务器向车载网络发送组播视频数据,车载网络CCTV监控服务器向中心发送单播监控视频数据。
二、问题描述
PIS系统经过多次调试,单车业务运行顺畅。近期地铁运维人员反馈,随着直播车辆增多,部分列车随机出现直播效果不好,车载视屏播放视频数据时卡屏或者马赛克严重。问题随机(时间和车辆都不确定)复现,且多辆车同时效果差,中心交换机上直连PC模拟接收车载组播数据,视频播放效果与车载相同。
三、问题分析
1、抓包分析发现环路
现场测试人员在中心交换机上直连PC模拟车载主机接收组播数据。列车视频复现问题时,中心测试PC播放组播视频卡屏严重,在测试主机上抓包分析,过滤组播数据分析,发现组播数据有多份重复报文:
初步判断网络存在环路,多份相同报文发送到终端,组播播放软件(VLC)解析报文错误引起视频显示花屏或者马赛克。排查有线RRPP环路情况,有线RRPP环路在问题复现的时候正常,此时将问题指向车载网络环路,下一步将判断直播车辆中,具体哪辆车车载网络存在环路。
2、MESH链路流量统计定位问题车辆
地铁列车白天运营车辆在14辆左右,列车运行期间不允许蹬车测试,晚上列车回到车辆库之后,问题无法复现,现场问题定位遭遇瓶颈。分析流量模型,PIS系统业务流量主要是中心服务器向车载网络发送视频组播数据,即车地MESH链路下行数据,AC上可以查询轨旁AP MESH接口收发数据,结合两个数据可以定位具体哪辆车存在环路可能。轨旁AP默认50秒上传一次统计数据,AC上查看MESH接口统计数据也是50秒更新一次,为了减少AC上查看延时,需要调整所有轨旁AP统计报文上报周期,建议将上报时间调整为5秒,测试完成之后改回50秒。
(1)调整轨旁AP统计上报周期
[AC-wlan-ap-ap1]statistics-interval ?
INTEGER<2-120> Specify statistics interval in seconds(Default:50)
[AC-wlan-ap-ap1]statistics-interval 5
(2)AC上使用命令查看轨旁AP MESH接口收发数据流量统计
[MasterAC1]display wlan mesh-link ap all | include Forwarding
c4ca-d942-35c0 c4ca-d971-a5a0 Forwarding 32 57/1008
c4ca-d942-35c0 3822-d6ae-b3a0 Forwarding 32 109/4703
c4ca-d942-35c0 c4ca-d971-c0a0 Forwarding 30 101/6455
c4ca-d942-3660 3822-d6ae-b9e0 Forwarding 29 2/75
c4ca-d942-3660 3822-d6ae-c020 Forwarding 24 174/11711
c4ca-d942-3660 3822-d6ae-8340 Forwarding 28 164/15800
c4ca-d942-3660 c4ca-d971-c780 Forwarding 19 122/21964
c4ca-d98b-17c0 3822-d6ae-b060 Forwarding 41 60/1457
c4ca-d98b-17c0 3822-d6ae-9420 Forwarding 36 90/4056
c4ca-d98b-17c0 c4ca-d971-e080 Forwarding 35 182/13667
c4ca-d98b-1720 3822-d6ae-8d80 Forwarding 25 2/1172
c4ca-d98b-1720 3822-d6ae-a960 Forwarding 27 544/49396
c4ca-d98b-1720 3822-d6ae-87c0 Forwarding 24 67/2038
c4ca-d942-36a0 3822-d6ae-8600 Forwarding 38 58/1326
c4ca-d942-36a0 3822-d6ae-7ae0 Forwarding 30 117/5062
c4ca-d942-36a0 3822-d6ae-8a00 Forwarding 26 85/3554
c4ca-d942-36a0 3822-d6ae-ad00 Forwarding 25 2/2
c4ca-d93e-8ae0 c4ca-d910-ffe0 Forwarding 29 314/27606
c4ca-d93e-8ae0 c4ca-d971-df40 Forwarding 31 2/68
c4ca-d93e-8ae0 3822-d6ae-c6c0 Forwarding 34 95/3106
c4ca-d942-3880 3822-d6ae-c780 Forwarding 19 298/27178
3822-d693-db60 3822-d6ae-ca40 Forwarding 39 38/55
3822-d693-db60 3822-d6ae-c900 Forwarding 36 81/1675
3822-d693-db60 3822-d6ae-c940 Forwarding 25 2/84
c4ca-d98b-1480 3822-d6ae-9260 Forwarding 34 143/26886
c4ca-d98b-1500 3822-d6ae-9360 Forwarding 34 10539/45494
c4ca-d98b-1520 3822-d6ae-79c0 Forwarding 32 406/45679
c4ca-d98b-1520 3822-d6ae-7900 Forwarding 27 2/17392
c4ca-d98b-1520 3822-d6ae-7b40 Forwarding 31 2/17366
说明:第一列为车载AP射频接口MAC地址,第二列为轨旁AP射频接口MAC地址,第三列是转发状态,第四列是轨旁AP收到MR的信号强度(RSSI),第五列第一个数据是轨旁AP收到车载AP发送的报文数量,第二个数据是轨旁AP发送的报文数量(包含管理报文和数据报文)。
每个车载AP可能与多个轨旁AP建立MESH链路,所以一个MR的MAC地址可能对应多个轨旁AP数据,根据主链路转发数据原理,仅有一个轨旁AP的MESH接口收发数据报文增量比较大。
Packets(Rx/Tx)统计轨旁AP接收和发送的报文数量,从正常的业务数据看,接收数据报文与发送数据报文应该是1:45(实际比例可能和视频码流大小有关,实际分析中根据正常的统计数值,得到当前网络对应的真是比例)左右,异常的时候数据比可能是1:5,数据如下:
c4ca-d942-3660 c4ca-d971-c780 Forwarding 19 122/21964
c4ca-d98b-1500 3822-d6ae-9360 Forwarding 34 10539/45494
根据车载AP的MAC地址以及轨旁AP收发报文比例,可以定位具体车辆可能存在环路。
3、车载链路环路原因分析
根据步骤二分析可以确定具体车辆存在问题,车载网络存在环路存在多种可能性,如果可以远程登录车载AP分析则直接分析问题,如果不能登录,待列车入库之后上车根据以下思路排查:
(1) 车头AP和车尾AP同时开启MESH链路,车载网络内部链路连通,车载网络和轨旁有线网络组成环路,下行的组播数据可能通过另一个车载AP将组播数据回传到轨旁有线网络,结合步骤二数据中MR MAC地址可以判断是否存在这种情况;
(2) 车载MR的mp-policy上未开启MLSP协议,或者mp-Poplicy开启了MLSP协议但未应用到射频口上。MLSP协议控制车载MR主备MESH切换,当未应用MLSP协议时,MR上建立的多条MESH链路均为主链路,MR与轨旁有线网络将组成逻辑环路,MESH链路下行 的组播数据将通过多条主链路重新传回轨旁有线网络。
(3) 车载MR与车载交换机之间的网线质量问题,网线传输下行的数据会反弹一部分回到车载AP,车载MR将这部分数据传回轨旁有线网络,也将影响全网使用效果。
(4) 车载内部有线网络环路,组播数据报文经过车载环路之后重新回到轨旁有线网络,将影响整网组播数据效果。这个问题将测试PC直连车载交换机,使用Wsend组播发送工具发包测试,同时在测试PC上抓包分析,如果抓包发现组播报文有双份,则可以说明车载有线网络存在环路,需要知会总包排查分析。
四、解决方法
根据步骤二发现有两列车出现数据异常的问题,如下定位解决现场问题:
(1) 远程登录其中一台设备之后发现射频接口没有调用mp-policy,远程无法绑定mp-policy,待列车返程之后绑定并保存配置,解决单列车环路问题,并组织代理商检查所有车载MR配置;
(2) 另一列车无法远程,列车入库之后蹬车检查MR配置正常,列车内部有线网络没有环路,跟换车载交换机与车载AP之间的网线。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作