现场一台S9850-32H运行过程中出现了批量bfd震荡的情况,导致bgp邻居中断。
Line 22: %Jan 24 00:33:30:248 2022 S9850-02 BFD/5/BFD_CHANGE_FSM: Sess[10.203.2.7/10.203.2.6, LD/RD:1030/8097, Interface:HGE1/0/28, SessType:Ctrl, LinkType:INET], Ver:1, Sta: UP->DOWN, Diag: 3 (Neighbor Signaled Session Down)
Line 23: %Jan 24 00:33:30:247 2022 S9850-02 BFD/5/BFD_CHANGE_FSM: Sess[10.203.2.1/10.203.2.0, LD/RD:1029/8096, Interface:HGE1/0/25, SessType:Ctrl, LinkType:INET], Ver:1, Sta: UP->DOWN, Diag: 3 (Neighbor Signaled Session Down)
Line 25: %Jan 24 00:33:30:246 2022 S9850-02 BFD/5/BFD_CHANGE_FSM: Sess[10.203.2.15/10.203.2.14, LD/RD:1032/8101, Interface:HGE1/0/32, SessType:Ctrl, LinkType:INET], Ver:1, Sta: UP->DOWN, Diag: 3 (Neighbor Signaled Session Down)
Line 26: %Jan 24 00:33:30:245 2022 S9850-02 BFD/5/BFD_CHANGE_FSM: Sess[10.203.2.3/10.203.2.2, LD/RD:1028/8095, Interface:HGE1/0/26, SessType:Ctrl, LinkType:INET], Ver:1, Sta: UP->DOWN, Diag: 3 (Neighbor Signaled Session Down)
1、根据现场诊断信息首先对故障现象进行了梳理,现场设备一共8个BFD会话,分布在HGE1/0/25-HGE1/0/32这个八个接口上,故障时这8个会话在同一时间发生震荡。
===============display bfd session verbose===============
Total Session Num: 8 Up Session Num: 8 Init Mode: Active
2、查看诊断中报文上cpu队列没有丢包,说明我们收到了对端的bfd报文,因此怀疑有如下两方面原因导致导致概率超过bfd会话时间,引起bfd震荡。
(1)软件任务处理时间偏长,没有及时释放CPU;
(2)软件收包共用芯片硬件资源,bfd报文处理没有及时处理。
3、查询当前版本的代码,发现该版本对BFD报文的处理存在一些问题,出现过多起bfd震荡的问题,后续R6616P01版本对BFD处理进行了如下优化:
(1) BFD报文三层发包改为二层发包,减少中间转发环节,提高BFD发包效率;
(2)BFD使用单独的DMA channel收包,提高BFD收包效率;
(3)BFD收包任务绑定到CPU核1,该CPU核专门处理BFD报文,提高BFD稳定性;
本次故障主要是当前版本对BFD处理存在问题,建议升级到R6616P01版本解决
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作