你这个是典型的 HA(RBM)脑裂 + 与上下联 M-LAG 环境不兼容。表象是 “接口 UP 但心跳断、双 active、上下联不通、Web 异常”,根因集中在 RBM 心跳丢包、超时、抢占 / 同步参数不对、和 M-LAG 互操作配置缺失、版本 P37 有已知缺陷。下面给你一套可直接落地的排查 + 修复(完全适配 F5000-AI-55-G,R9900P37,镜像模式 + M-LAG)。
一、先确认现象:就是 “脑裂(双 active)”
两台防火墙镜像模式(RBM 主备),切换后:
日志:Keepalive link disconnected
接口物理 UP,但 RBM 心跳断
最终变成 双 active(两台都 master)
上下联 M-LAG 交换机→环路 / 表项错乱→ping 不通、Web 打不开
二、四大核心原因(你环境必中其一)
1)RBM 心跳口配置 / 策略错误(最常见)
心跳口和业务口同板 / 同 VLAN,M-LAG 收敛时瞬断触发超时
心跳报文被安全策略 / ACL/QoS 限速丢弃(RBM 用 TCP 5123)
心跳 IP 不在同一网段、掩码不一致
只配了一条心跳,没有独立的心跳链路
2)RBM 超时 / 抢占时间不合理
timer keepalive 太短(默认 10s),M-LAG 切换 STP 收敛(30s+)时误判断连
抢占时间为 0,恢复后立即抢占,震荡加剧
3)M-LAG 与 RBM 互操作没配(关键)
上下联是 M-LAG,防火墙 HA 切换时:
M-LAG peer-link 收敛→MAC/ARP 漂移
防火墙 RBM 同步会话 / 表项时冲突→双 active
缺少 RBM 与 M-LAG 联动(延迟抢占 / 延迟同步)
4)版本 R9900P37 已知缺陷
P37 有 RBM 心跳偶发断连、双 active、会话同步异常 的 BUG,官网有公告,建议升级 P39+
三、立即执行:5 步排查(每步都要做)
1. 查 RBM 状态(确认双 active)
bash
运行
display rbm state
正常:一台 Master,一台 Backup
异常:两台都是 Master → 脑裂
2. 查心跳口与连通性
bash
运行
display ip interface brief # 心跳口UP
ping 对端心跳IP -c 100 # 无丢包
display tcp connection | include 5123 # RBM TCP 5123连接存在
3. 查安全策略是否放行 RBM
bash
运行
display security-policy | include 5123
必须放行:源 / 目的为心跳 IP,TCP 5123
4. 查 M-LAG 侧配置
在上下联 M-LAG 交换机:
bash
运行
display m-lag brief # peerState正常
display stp brief # 无频繁拓扑变化
5. 查版本与 BUG
bash
运行
display version
确认是 R9900P37 → 存在 BUG,必须升级
四、根治配置(按顺序,两台都配)
1. 升级固件(必做,解决 P37BUG)
目标版本:R9900P39 及以上
升级后恢复出厂,重新配置(镜像模式)
2. 重新配置 RBM 心跳(独立链路)
bash
运行
# 两台防火墙相同
system-view
# 1)独立心跳口(不要和业务口同板)
interface GigabitEthernet1/0/24 # 专用心跳口
ip address 10.1.1.1/24 # 同一网段
undo shutdown
# 2)开启RBM,镜像模式
rbm enable
rbm mode mirror
rbm group 1
local-ip 10.1.1.1
peer-ip 10.1.1.2
priority 150 # 主设备优先级高
timer keepalive 30 # 心跳30s(避开M-LAG收敛)
timer hold 120 # hold 120s,不立即切换
preempt-mode timer 300 # 抢占延迟5分钟,稳定后再切
# 3)放行RBM心跳(TCP 5123)
security-policy
rule name PERMIT-RBM
source-ip 10.1.1.0/24
destination-ip 10.1.1.0/24
service tcp destination-port 5123
action pass
3. 关闭不必要的会话同步(减少切换震荡)
bash
运行
rbm group 1
undo session-sync enable # 先不同步会话,切换后重建
4. M-LAG 侧关键配置(交换机上)
bash
运行
# 上下联M-LAG交换机
system-view
# 1)关闭M-LAG快速收敛,给防火墙切换时间
m-lag
recovery-delay 120
# 2)STP收敛调慢
stp timer forward-delay 15
stp timer hello 2
5. 双 active 恢复(紧急处理)
一旦出现双 active:
bash
运行
# 在其中一台上强制设为Backup
rbm group 1
force-backup
恢复后再检查心跳与连通性
五、验证(配置后必做)
display rbm state:一主一备
display tcp connection | include 5123:连接正常
手动切换主备:rbm group 1 switchover
切换后无心跳断连、无双 active
上下联 ping 正常、Web 访问正常
六、总结(一句话)
F5000-AI-55-G R9900P37 + M-LAG 环境下,心跳超时 + 版本 BUG + 互操作缺失导致脑裂;升级 P39+、独立心跳口、调大 RBM 超时 / 抢占延迟、M-LAG 收敛降速,即可根治。
暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论