Print

某局点 SR88X 外网接口故障导致内网数据异常问题典型案例

2021-08-31 发表

组网及说明

某大客户有跨省多分支自建组网,其中A分支PE下联外网出口。网内业务均在公网实例运行,各分支PE设备对分支内网运行OSPF路由,P和PE之间运行另一个OSPF进程打通Loopback接口,并运行IBGP协议交互业务路由,并在PE上完成业务路由在分支和骨干网络之间的发布。

网内PE和P路由器均为SR8804-X设备,版本为R7951p10 


问题描述

故障现象:组网运行过程中,突发出现B分支内生产业务部门访问A分支内IDC服务器不通数分钟后自动回复,导致业务中断10分钟左右。故障期间其它分支内访问IDC服务器未出现异常。


过程分析

由于本次故障影响到生产业务,且查询B分支CE、PE设备均没有直接关联的日志报障情况,因此需要梳理全网排查原因。

一、筛查网管告警记录发现,在业务故障出现期间内,全网仅有A-PE2设备与出口2交换机互联的接口反复震荡的记录。接口震荡故障原因经过排查发现是两台设备之间串接的二层透明深信服AC防火墙故障导致。但一条外网出口线路故障与内网业务中断如何产生关联,需要继续分析。

二、再次检查出口组网情况,发现A-PE1与出口1交换机的互联线路已在本次业务故障前几天因链路故障原因断开。这导致当A-PE2和出口2互联接口震荡时,整个网络的外网出口都不存在了。

三、核对外网出口的路由发布方式,发现是在PE上配置静态缺省路由指向出口交换机,并通过network命令将缺省路由发布到BGP中,然后由A分支两台PE设备将BGP缺省路由传递到其它分支PE上。

 address-family ipv4 unicast 

 balance 2 

 preference 255 140 130 

 filter-policy 3000 import 

 network 0.0.0.0 0.0.0.0

四、根据业务中断时报障的源目地址,沿途逐级检查路由学习情况,发现在A-PE到B-PE之间的路由器设备上查看都有明细业务网段路由,但B分支内网CE设备上查看IDC方向地址仅有缺省路由,而无明细网段路由。

随即查看B-PE设备的内网方向OSPF配置,发现该进程使用了不携带always参数的default-route-advertise命令发布缺省路由的方式,将缺省路由传给B分支内部网络,而不是传递明细路由。

即当B-PE设备本身路由表中不存在其它来源的缺省路由时,就不会向该OSPF进程发布缺省路由。

对比查看A分支和其它分支PE均使用了内网OSPF进程引入BGP路由的方式实现业务明细路由学习,仅B分支PE采用了OSPF发布缺省路由。

五、排查组网BGP缺省路由确认,该网内仅有A-PE发布了BGP缺省路由。当出口链路震荡导致A-PE的静态缺省路由消失,进而组网内BGP缺省路由消失,B-PE就不会向B内网发布缺省路由,最终导致业务中断。

解决方法

评估网内BGP路由量并不大,将B-PE也改为OSPF进程引入BGP路由方式学习业务明细路由。

后续再出现出口异常也不会导致内网业务中断。