在动手排查前,先用一分钟观察一下故障范围,这决定了我们该从哪里入手。你可以参考下面的对比:
| 观察点 | 可能是汇聚交换机的问题 | 可能是接入交换机或下联设备的问题 |
|---|---|---|
| 故障影响范围 | 所有下联的接入交换机都闪断,或整个网络都不稳定。 | 只有某台特定的接入交换机下联的网络闪断,其他都正常。 |
| 汇聚交换机本身状态 | 汇聚交换机CPU使用率过高、日志里全是警告、端口指示灯异常狂闪。 | 汇聚交换机运行平稳,查看其下联端口,可能只有连接故障接入交换机的那个端口有错误计数。 |
| 核心交换机状态 | 核心交换机也可能检测到来自汇聚的链路不稳定。 | 核心交换机到汇聚的链路完全正常。 |
根据上面的初步判断,我们来系统地排查。请按照从“最可能”到“最不可能”的顺序操作。
这是导致网络闪断最常见的原因,特征非常明显。
现象识别:故障时,交换机的端口指示灯(特别是连接终端的端口)可能会快速、同步地疯狂闪烁,网络几乎瘫痪,但过一会儿又自己恢复。这与“闪断”的特征高度吻合。
排查命令(在汇聚和问题接入交换机上执行):
查看MAC地址漂移:这是环路的铁证。
查看CPU利用率:环路会导致CPU飙升。
查看日志:
MAC-flapping 或 Loop。解决方案:找到形成环路的链路或端口(可能是某台小交换机、无线路由器或某条网线插错了地方),将其断开。正确启用并配置生成树协议(STP/RSTP/MSTP)是防止环路的根本方法。
环路排除后,下一个常见问题是物理链路不稳定。
现象识别:闪断没有规律,可能跟流量大小有关,或者发生在雷雨天气后。
排查命令(在汇聚交换机的下联口和接入交换机的上联口执行):
查看端口错误计数:
InErrors/OutErrors计数不为0。深入检查端口详细错误:
CRC、Runts、Giants、Collisions 等错误计数。如果这些数字在故障期间快速增长,说明链路层有严重问题。检查光模块和光功率(如果是光纤链路):
解决方案:
错误计数多:尝试更换网线、光纤或光模块。检查接口是否接触良好。
光功率异常:清洁光纤接口,检查法兰盘连接,或更换光模块。
确认两端端口协商模式一致(通常建议都设为自动协商)。
即使没有环路,STP的拓扑变化也可能导致短暂的网络中断。
现象识别:闪断的同时,网络设备日志里频繁出现 Topology Change (TC) 日志。
排查命令:
查看STP状态:
查看STP历史信息:
如果配置了链路聚合:
解决方案:
STP不稳定:检查网络拓扑是否真的存在冗余链路,优化STP配置(如开启stp tc-protection防止TC攻击)。
聚合不稳定:检查两端聚合配置是否一致,物理链路质量是否达标。
设备性能耗尽或遭受攻击也会导致服务闪断。
现象识别:设备在故障时反应缓慢,远程登录卡顿。
排查命令:
查看CPU和内存历史:
查看日志:
attack、flood、CPU 等关键字,看是否有攻击日志或CPU过载的告警。解决方案:如果是攻击,需要配置ACL或QoS进行抑制;如果是设备性能不足,可能需要考虑升级。
暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论