一、日志含义先看懂
日志 Master-down-timer expired 直译:Backup 在 3.6 秒内完全收不到 Master 发送的 VRRP 通告报文,定时器超时,自动升主。
现象特征:只有部分 VLAN 发生切换、Trunk 物理链路 UP 正常,说明二层互通无断,但故障 VLAN 的 VRRP 组播报文(224.0.0.18)丢包 / 转发受阻,正常 VLAN 报文转发没问题。
二、分优先级根因(匹配 “部分 VLAN 抖动、Trunk 正常” 特征)
1. MSTP 生成树阻塞了故障 VLAN 的互联 Trunk 转发路径(最高概率)
两台 S5560 互联 Trunk 同时承载几十个业务 VLAN,MSTP 实例划分不一致、实例映射错误:
正常 VLAN:二层转发路径为 Forwarding,VRRP 组播正常传递;
故障 VLAN(Vlan103):该 VLAN 所属 MSTP 实例把互联 Trunk 口置为 Discarding 阻塞,VRRP 224.0.0.18 组播报文无法跨两台交换机传递,Backup 收不到 Master 的 VRRP 报文,超时切主。
验证命令
plaintext
display stp brief
display stp instance all
display mstp configuration
查看互联 Trunk 口在 Vlan103 所属实例的状态,若为 Discarding 就是根源。
2. Trunk 允许列表漏放故障 VLAN,或 VLAN 未在两台交换机同步创建
互联 Trunk 只放通了部分 VLAN,Vlan103 未在 Trunk 允许列表:
plaintext
interface GigabitEthernet 1/0/X
port trunk permit vlan all // 若写死vlan列表,缺少103就会丢VRRP报文
一台交换机存在 Vlan103,另一台没有该 VLAN,二层组播跨设备无法转发。
3. 故障 VLAN 存在二层环路,MAC 地址频繁漂移,组播报文被冲刷丢弃
故障 VLAN 下接入交换机环路,MAC-flap 风暴挤占 CPU,交换机丢弃 VRRP 组播报文;无环路的 VLAN 不受影响。
验证:
plaintext
display mac-address flapping record
有大量漂移记录即可确认。
4. Master 交换机 CPU 占用过高,丢弃 VRRP 通告报文
Master 设备 CPU 持续 90%+,协议报文调度优先级低,部分 VLAN 的 VRRP 报文直接丢弃,Backup 收不到;流量小的 VLAN 不受影响。
plaintext
display cpu-usage task
查看 VRRP/STP 任务占用。
5. VRRP Track 监控对象波动,Master 临时降优先级、发送 0 优先级报文
如果 Vlan103 的 VRRP 配置了track interface/track nqa,上行链路轻微抖动会导致 Master 优先级骤降,发送 0 优先级报文,Backup 立刻切主,日志也会伴随 Master-down-timer 超时。
6. IGMP-Snooping 阻断 VRRP 组播 224.0.0.18
IGMP snooping 默认不会过滤本地链路组播,但配置异常时会删除 224.0.0.18 的组播表项,仅故障 VLAN 表项丢失,VRRP 报文单方向丢失。
三、标准化排查步骤(从简单到复杂)
步骤 1:确认互联 Trunk 完整放行故障 VLAN103
两台交换机分别执行:
plaintext
display port trunk allowed-vlan GigabitEthernet 1/0/X
若没有 vlan 103:添加放行
plaintext
interface GigabitEthernet 1/0/X
port trunk permit vlan 103
两台交换机都必须创建vlan 103。
步骤 2:检查 MSTP 实例映射(核心解决 “部分 VLAN 故障”)
两台交换机 MSTP 域配置必须完全一致:域名、修订级、实例 - VLAN 映射;
查看互联 Trunk 在 Vlan103 所属实例的端口状态:
plaintext
display stp instance X brief
互联口为 Discarding:调整 MSTP 优先级,保证两台交换机互联口全部 Forwarding;
临时规避测试:故障 VLAN 所属实例把互联端口配置边缘端口(仅测试,不长期用)。
步骤 3:抓包验证 VRRP 报文收发(定位丢包位置)
在 Backup 交换机互联 Trunk 口抓故障 VLAN 的 VRRP 组播:
plaintext
packet-capture interface GigabitEthernet 1/0/X vlan 103
抓不到 Master 的 VRRP 报文 → 二层转发阻断(MSTP/Trunk/ 环路);
能抓到但频繁间断 → CPU 丢包 / 链路抖动。
步骤 4:检查环路与 MAC 漂移
plaintext
display mac-address flapping record
reset mac-address flapping record
清空后观察半小时,若再次产生漂移,排查接入侧环路。
步骤 5:优化 VRRP 参数,抑制频繁切换(临时缓解)
1)开启抢占延迟,避免反复震荡
两台交换机 Vlanif103 同步配置:
plaintext
interface Vlan-interface 103
vrrp vrid 103 preempt-mode timer delay 15
# 加长VRRP通告间隔,降低报文丢失概率
vrrp vrid 103 timer advertise 3
2)关闭不必要的 Track 监控,消除优先级波动
plaintext
interface Vlan-interface 103
undo vrrp vrid 103 track interface ...
步骤 6:CPU 资源排查
plaintext
display cpu-usage
display cpu-usage task | include VRRP
CPU 持续高于 85%,排查广播风暴、环路、大量终端 MAC 学习。
四、根治优化方案(长期稳定)
MSTP 统一规划:两台交换机 MSTP 域配置完全同步,互联 Trunk 所有实例均为 Forwarding;
互联 Trunk 使用port trunk permit vlan all,避免漏放 VLAN;
所有 VRRP 组统一配置抢占延迟 15s、通告间隔 3s,减少抖动;
接入层开启环路检测loopback-detection enable,杜绝二层环路;
若业务敏感,VRRP 绑定 BFD 快速检测,精准感知链路故障,消除误切换。
plaintext
interface Vlan-interface 103
vrrp vrid 103 bfd enable
Master-down-timer expired这句话的语义很明确——备机(JF-02)在 master-down-interval 时间内没收到的对端 VRRP 通告,超时后自己升 Master 了。你说"trunk 正常",但"部分 VLAN 会切、部分不会"这个特征已经把范围缩得很小了,基本不是全局配置问题,而是某些 VLAN 的 VRRP 组播过不去 / track 抖 / STP 把这 VLAN 的链路阻塞了这几类。up up,但 S5560 的 trunk 默认是 permit vlan all吗?不一定——很多现场是手动 permit vlan 10 20 30...罗列的。permit vlan 103了吗?display interface Bridge-AggregationXX # 或物理口
display port trunktrack interface XX reduced XX或者 track NQA/BFD,被 track 的上联口闪断 / NQA 偶发超时 → 优先级被 reduced → 被对方抢占 → track 恢复 → 又抢回来,日志里就会反复出现 Master-down-timer expired+ 又切回 Backup。display track
display vrrp verbose💡 判断技巧:如果 所有配了 track 的 VLAN 都在抖、没配 track 的 VLAN 稳,那基本就是 track 的问题,把 track 对象(NQA/BFD/上联口)单独查。
display stp brief # 看互连口各实例角色
display stp instance XX # 看 103 所属实例DISCARDING,那就是它。master-down 3s+(默认 adv 1s × 3)就容易超时。display cpu看下,如果某核持续 >70% 就要怀疑。advertise 1s,网络微拥塞就会偶发超时。可以把 adv 调小(timer advertise msec 100)+ 抢占加延时(preempt-mode timer delay 5)压一下,但这只是缓解,根因还是上面三个。display vrrp verbose vrid 103,重点看:Received packets—— 如果 JF-02 这里收包数长时间不涨或者明显少于发包,说明 103 的 VRRP 组播没过来(回到原因 1/3)。Running privs Config pri—— 不一致就是 track 在作妖(原因 2)。Master IP—— 切换时是不是对端 IP,确认是不是双主。Master -> Backup→ 双主,中间丢包(trunk/S TP/中间设备)。display port trunk+ display stp brief一把梭,VLAN 103 的放行和 STP 状态 30 秒能看完。
display vrrp verbose vrid 103(两台都发)和 trunk 口的 display port trunk贴出来,能直接锁定是哪一档。特别是"部分 VLAN 会、部分不会"——告诉我哪些 VLAN 稳哪些抖,稳的那组和抖的那组配置差异(有没有 track、是不是在同一个 MSTP 实例)基本就能对上号。暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论