某金融客户SR6608 OSPF 路由更新异常问题
一 组网:
二 问题描述:
2014年10月14日,某金融客户反馈,SR6608路由器下联广域网链路部分中断,本地路由表项更新正常,但是省行两台核心交换机的路由没有正常切换.10月15日下午,代理商现场复现了该问题,研发对反馈的信息进行了分析。
三 过程分析:
通过对现场反馈的诊断信息、日志等信息的分析,下面信息显示,由于链路问题,OSPF的震荡比较频繁:
%Oct 14 10:01:59:976 2014 A_HLHRA_MAN_DR01 RM/3/RMLOG:OSPF 1 last neighbor down event: ROUTER ID: 29.113.254.238 LOCAL ADDRESS: 29.113.248.33 REMOTE ADDRESS: 29.113.248.34 REASON: DeadInterval timer expired
%Oct 14 10:01:59:976 2014 A_HLHRA_MAN_DR01 RM/3/RMLOG:OSPF-NBRCHANGE: Process 1, Neighbor 29.113.248.34(Serial3/2/1/37:0) from Full to Down
%Oct 14 10:02:17:988 2014 A_HLHRA_MAN_DR01 IFNET/4/UPDOWN:
Line protocol on the interface Serial3/2/1/37:0 is DOWN
%Oct 14 10:02:17:989 2014 A_HLHRA_MAN_DR01 IFNET/4/UPDOWN:
Protocol PPP IPCP on the interface Serial3/2/1/37:0 is DOWN
%Oct 14 10:02:17:991 2014 A_HLHRA_MAN_DR01 RM/3/RMLOG:OSPF_CTM_Multicast_Address: Leaving the multicastgroup:224.0.0.5 Success, IfNetIndex: 27997028, PhysicalIndex: 109
%Oct 14 10:04:54:923 2014 A_HLHRA_MAN_DR01 IFNET/4/UPDOWN:
Line protocol on the interface Serial3/2/1/37:0 is UP
%Oct 14 10:04:54:932 2014 A_HLHRA_MAN_DR01 IFNET/4/UPDOWN:
Protocol PPP IPCP on the interface Serial3/2/1/37:0 is UP
%Oct 14 10:04:54:935 2014 A_HLHRA_MAN_DR01 RM/3/RMLOG:OSPF_CTM_Multicast_Address: Joining the multicastgroup:224.0.0.5 Success, IfNetIndex: 27997028, Phy Index: 109
%Oct 14 10:05:05:548 2014 A_HLHRA_MAN_DR01 RM/3/RMLOG:OSPF-NBRCHANGE: Process 1, Neighbor 29.113.248.34(Serial3/2/1/37:0) from Loading to Full
%Oct 14 11:07:40:999 2014 A_HLHRA_MAN_DR01 IFNET/4/UPDOWN:
Line protocol on the interface Serial3/2/0/26:0 is UP
%Oct 14 11:07:41:00 2014 A_HLHRA_MAN_DR01 IFNET/4/UPDOWN:
Protocol PPP IPCP on the interface Serial3/2/0/26:0 is UP
%Oct 14 11:07:41:02 2014 A_HLHRA_MAN_DR01 RM/3/RMLOG:OSPF_CTM_Multicast_Address: Joining the multicastgroup:224.0.0.5 Success, IfNetIndex: 27996954, Phy Index: 35
%Oct 14 11:07:51:739 2014 A_HLHRA_MAN_DR01 RM/3/RMLOG:OSPF-NBRCHANGE: Process 1, Neighbor 29.113.249.146(Serial3/2/0/26:0) from Loading to Full
%Oct 14 13:15:02:63 2014 A_HLHRA_MAN_DR01 RM/3/RMLOG:OSPF 1 last neighbor down event: ROUTER ID: 29.113.254.201 LOCAL ADDRESS: 29.113.248.157 REMOTE ADDRESS: 29.113.248.158 REASON: DeadInterval timer expired
%Oct 14 13:15:02:63 2014 A_HLHRA_MAN_DR01 RM/3/RMLOG:OSPF-NBRCHANGE: Process 1, Neighbor 29.113.248.158(Serial3/2/1/59:0) from Full to Down
%Oct 14 13:15:25:154 2014 A_HLHRA_MAN_DR01 IFNET/4/UPDOWN:
Line protocol on the interface Serial3/2/1/59:0 is DOWN
%Oct 14 13:15:25:155 2014 A_HLHRA_MAN_DR01 IFNET/4/UPDOWN:
Protocol PPP IPCP on the interface Serial3/2/1/59:0 is DOWN
由于线路质量欠佳,设备有比较频繁的路由震荡,当链路部分中断后,很可能就触发了如下问题:
RTD53723
首次发现版本:SR6600-CMW520-R2420
问题产生的条件: OSPF邻居较多且路由持续震荡。
问题现象:在路由拓扑变化后,部分OSPF路由表项无法更新。
为了验证此问题,代理商在10月15日下午5点,通过shutdown端口,复现了故障,按照研发提供的信息列表收集了相关信息:
dis ospf peer verbose
dis ospf lsdb
_h
dis memory-dump 030b8ad4 2
memset 030b8ad4 2 1
dis ospf lsdb summary *.*.*.* (有问题的路由)
memset 030b8ad4 2 0
从收集的信息分析,OSPF时钟发生了反转(149585899<4294929559 ):
---- *** LSA Debug Information Starts *** ---
Current Time : 149585899 LSA TmStamp : 149584523 LSA Age : 0
LSA_ucstatus : . . . . . . . . LSA_ucStatus2 : . . . . . .
LSA_ucOption : 0 ucReverseOther : 0
ulSpfTime : 0 ulInTouchTimeStamp : 4294929559
Total Match element: 1
LSA Match Element list:
Type NetMask Metric Data
1 0xffffff00 49828 2808
通过上面的分析,已经确认了是由于链路质量引起的OSPF邻居震荡,从而触发了该问题,后面的版本研发做了如下修改:
LSA Element删除的时候不比较时戳,只要找到相等就删除;
添加新的Element时时戳不相等就认为后来的比较新直接覆盖原来的,相等认为是同一批次,按照优选规则进行优选;
如果时间戳翻转后认为时间戳相等(只有43亿分之一的概率),LSA Element来源于路由计算或者是同一条路由则直接更新,其他采用原来的优选规则。
四 解决方法:
可以通过Reset OSPF进程来规避此问题;
升级R3303P11版本解决
设备邻居以及路由都很多,这种情况下频繁震荡会造成无谓的消耗。因此,建议排查链路质量,避免频繁震荡,从根源上解决问题。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作