UR路由器后台查看到连接数突然升高,瞬间并发超30w,AP全部离线,终端业务瘫痪
图1—UR路由器连接数
现场原始组网架构:以UR7808作为全网出口网关,地址为192.168.200.1;下联部署内网核心、监控核心两台三层设备,其中内网核心网关地址192.168.200.252,负责内网业务网段转发,监控核心网关地址192.168.200.254,承载监控业务转发,三台设备同网段互联互通。
本次设备会话数飙升至 30 万 + 异常故障,核心起源为ARP 表项学习错误。首先,故障发生时内网抓包,查看报文源和目的交替出现为UR LAN接口MAC,且TTL依次减一,定位出组网内存在三层环路

图2,3--内网抓包
经排查,此局点为双网关业务环境,业务核心网关和监控核心网关在同一网段(192.168.200.X),监控核心设备开启了本地 ARP 代理功能(该功能为常见配置,多用于端口隔离场景下跨终端互通);当出口 UR7808 设备广播发起内网核心网关192.168.200.252的 ARP 解析请求时,监控核心依据 ARP 代理协议机制,拦截该广播 ARP 报文,并使用自身接口 MAC 地址代为回复 ARP 应答报文。
图4—监控核心
UR7808 收到代理回复报文后,正常完成 ARP 表项学习,错误将内网核心网关 IP与监控核心接口 MAC 地址进行绑定,直接造成三层转发下一跳指向错误。受错误 ARP 表项影响,外网访问流量访问内网核心下联192.168.201.x业务网段时,UR7808 路由查表后,本应将报文转发至内网核心,实际却按照错误 ARP 条目,把报文转发至监控核心设备。
图5—UR路由器ARP表项
监控核心接收异常转发报文后,通过路由查表判定该回流流量需回传至出口 UR7808,随即再次将报文转发回路由器;报文往返投递无有效终点,在 UR7808 与监控核心之间形成持续性三层转发环路。大量业务报文在环路内反复循环转发,无法正常抵达目的网段,直至报文 TTL 耗尽最终被设备丢弃;同时无休止的循环报文持续占用设备转发资源、不断新建会话条目,最终导致 UR7808 设备会话数异常暴涨,引发全网转发性能下降、业务访问异常等问题。
图6--核心交换机日志
1. 关闭监控核心、内网核心所有非业务必要接口的本地 ARP 代理功能,终止异常 ARP 代答行为
2. 在 UR 出口网关、内网核心、监控核心等关键三层设备上,手动配置核心网关、互联节点的静态 ARP 绑定,固化标准 IP-MAC 映射关系
3. 清空全网设备中震荡异常的动态 ARP 表项、无效冗余路由与漂移路由,恢复正常业务
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作