不涉及
不涉及
M9K防火墙RBM组网情况下主备切换异常典型故障分析
现场RBM结合VRRP主备组网,倒换测试时出现切换异常情况。预设置的回切时延为5分钟,业务在2框(业务主)承载。此时打开1框的业务端口,RBM立刻回切,没有按照配置的时间(5min)切换。
查看现场的操作记录,发现主框的端口打开之后,RBM立刻发生回切。
RBM在接口恢复之后立马发生切换,说明2框应该存在故障(该故障事件的优先级低于接口故障),导致1框接口恢复后触发主备切换。
继续分析可能的原因,估计可能是2框健康值导致的。后续查看2框健康值发现存在HG链路故障。
HA组网中,设备之间具体选举过程如下:
(1) 首先比较设备的业务接口链路状态,接口链路状态为UP多的设备会当选为主设备,反之为备设备。可通过track、track interface、track vlan等命令监测业务接口的链路状态。
(2) 当链路状态为UP的业务接口数量相同时会比较设备之间的Context状态,处于Active状态的Context多的会当选为主设备,反之为备设备。HA只比较两端编号相同的非缺省Context的状态。
(3) 当Context状态相同时会比较设备的健康值(管理员可通过display system health命令查看设备健康值),健康值小的会当选为主设备,反之为备设备;
(4) 当健康值相同时会比较设备的业务板个数,业务板个数多的会当选为主设备,反之为备设备;
(5) 当以上条件都相同时会根据设备的工作模式来选择业务角色。双主模式两台设备都为主设备,主备模式由主管理设备作为主设备,从管理设备作为备设备。
手工清理2框健康值后,切换正常。命令:
RBM_S[FW]reset-health-value hgportdown slot 10
RBM_S[FW]reset-health-value hgportdown slot 11
RBM_S[FW]reset-health-value hgportdown slot 12
RBM_S[FW]reset-health-value hgportdown slot 13
因此,在现网设备出现硬件故障更换板卡时,请用display system health检查健康状态,并在更换板卡后根据display system health history 中的信息用命令 reset-health-value hgportdown slot 清除相关故障信息,这样才能保证RBM切换不会出现异常。
健康值异常截图:
恢复后:
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作