Print

某局点P3617设备双归属组网失效

2026-03-17 发表

组网及说明

某局点采用OLT设备P3617 两台实现双归属冗余备份功能。

【双归属方案】即两台P3617作为主备进行处理PON业务,同时只有主设备OLT收发光,备机不发光。

两台P36 OLT之间通过心跳线互联,心跳线采用主控卡上的ETH带外管理口作为互联。组网示意图如下:

 

 

问题描述

目前该组网在现场运行半年无问题,此次反馈OLT下所有的ONU都注册不上线了,ONU业务受影响发生了中断,暂时未能恢复。

过程分析

  • 现场尝试主备OLT互相用带外管理地址互ping发现不通。主OLT带外管理1.1.1.1  备OLT带外管理1.1.1.2

那么大概率存在心跳丢失的问题。只有心跳报文存在双归属才能建立,否则各自认为是主。

主OLT 1.1.1.1去ping 备OLT1.1.1.2发现不通,如下图:

主OLT上是可以看到备OLT的arp地址正常,如下图:

主OLT查看带外管理地址的配置状态正常,如下图:

备OLT查看带外管理地址的配置状态正常,如下图:

  • 通过show dual-homing state 显示双归属的配置,其中Link State显示 disconnect状态。

按照常理分析 这个带外互联接口是网线直连,没有外界干预,也就是说出现了ETH口直连不通的情况。

显示状态为disconnect,如下图:

  • 现场用电脑分别替换1.1.1.1和1.1.1.2的地址去ping OLT,测试期间断开心跳线,用电脑直连各自的ETH,发现ping 1.1.1.1时主机不通,ping1.1.1.2时备机正常响应。

也就是判断为主机的1.1.1.1响应存在问题,大概率主机是故障嫌疑。

电脑模拟主OLT的地址 1.1.1.1 直连备OLT的ETH 直连互ping可通,如下图:

电脑模拟备OLT的地址 1.1.1.2 直连主OLT的ETH 直连互ping可通,如下图:

  • 现场应急操作为,拔掉主机PON的光口,将业务切换至备机,故障消失。当双归属出现心跳失效时,会导致两个OLT同时发光,下挂的ONU就会出现工作异常无法正常上行。

此操作作为应急操作,先将故障业务恢复,保留一组业务不重要的继续与主OLT关联,进行后续的定位分析。

  • 在进一步分析OLT的底层日志中发现1.1.1.2这个IP地址出现在多个接口下,分别出现在主OLT的ETH心跳互联口也出现在br.101的对外通信口上

如下图分析日志 所得

这个状态下,主OLT从上行口收到1.1.1.2 的包,但是跟带外接收到的冲突,因此就把1.1.1.2阻止掉了

  • 经过逐步筛查发现该局点存在OA系统,也刚好用了1.1.1.2这个IP地址,与主备OLT使用得心跳线IP冲突了。

 

解决方法

  • 现场的应急措施:

将主OLT的光纤拔掉,保持备OLT工作。

  • 最后解决办法:

修改主备OLT的心跳同步地址,确保与外界的交互地址不冲突。