WAN口是互联网专线,有静态IP地址
下面的电脑ping互联网专线的网关都会丢包
14.149.68.1 的 Ping 统计信息:
数据包: 已发送 = 658,已接收 = 655,丢失 = 3 (0% 丢失),
往返行程的估计时间(以毫秒为单位):
最短 = 0ms,最长 = 147ms,平均 = 5ms
113.108.81.189 的 Ping 统计信息:
数据包: 已发送 = 645,已接收 = 640,丢失 = 5 (0% 丢失),
往返行程的估计时间(以毫秒为单位):
最短 = 11ms,最长 = 159ms,平均 = 15ms
带宽下行1000兆,上行100兆,没有拥塞。
要如何排查呢?
第一阶段:快速状态检查(5分钟)
首先,通过命令行或Web界面登录设备,获取一个即时的性能快照。
# 查看设备运行时间和基本状态
display version
display device
# 检查CPU和内存利用率(重点关注5分钟和1秒钟的平均值)
display cpu-usage
display memory-usage
# 检查接口流量和错误包(重点关注WAN口,即连接互联网的接口)
display interface GigabitEthernet x/x/x # 替换为你的外网接口
重点关注:
CPU利用率: 如果5分钟平均利用率持续超过70%,或者在丢包发生时1秒钟利用率有瞬间飙升至100%的情况,说明设备处理能力可能已达瓶颈。
内存利用率: 通常问题不大,但如果长期高于80%也需要警惕。
接口错误包: 查看Input/Output Errors, CRC Errors, Giants等。如果这些计数在持续增加,说明可能存在物理链路问题(如网线、光模块、运营商线路)。
第二阶段:深入性能分析(核心步骤)
偶尔丢包的问题,需要在一段时间内(比如15-30分钟)进行持续监控,最好在业务高峰期进行。
检查会话数(Session Count)- 这是最关键的指标!
MSR5620的性能瓶颈往往体现在NAT会话数上。500多台设备,如果每台设备并发连接数较高,很容易触顶。
# 查看当前的NAT会话数
display nat session statistics
# 或者查看总的会话数
display session statistics
对比设备规格: 查询MSR5620的官方文档,看其NAT会话数上限是多少(例如是64K还是128K)。如果实时会话数已经接近上限的80%-90%,那么丢包几乎是必然的。
持续监控CPU和内存
使用命令进行周期性采样,比如每5秒一次,持续监控。
# 监控CPU,每5秒刷新一次,循环10次
display cpu-usage 5 10
观察是否有规律性的CPU峰值。
检查IPFQ(快速转发队列)丢包
这是判断设备是否因性能不足而丢包的直接证据。
# 检查IPFQ丢包计数
display qos queue interface GigabitEthernet x/x/x
# 或者更通用的
display interface | include "drops|errors"
如果Input/Output Drops有数值且在不断增长,说明数据包已经进入接口,但因为设备CPU处理不过来(拥塞)而被丢弃。这是设备性能达到瓶颈的典型标志。
第三阶段:内外网路径排查
如果设备本身资源(CPU、会话数)并不紧张,那么问题可能出在路径上。
内网路径排查:
目的: 确认丢包是发生在设备到互联网之间,还是内网客户端到设备之间。
方法: 在局域网内找一台电脑,持续Ping路由器的内网网关IP地址。
# 在电脑上执行
ping -t 192.168.1.1 # 替换为你的网关IP
判断: 如果在互联网丢包的同时,Ping内网网关也丢包,那么问题可能出在路由器内网接口或内网交换机的某处(如环路、某台终端中毒疯狂发包)。如果Ping网关始终正常, only ping互联网丢包,则问题集中在路由器本身或外网。
外网路径排查:
目的: 确定是路由器到运营商之间的问题,还是运营商网络内部的问题。
方法: 在路由器上开启Ping功能,并执行 traceroute 和 持续Ping。
# 在系统视图下,允许ping(如果之前禁用了的话)
[H3C] acl number 2000
[H3C-acl-basic-2000] rule permit source any
[H3C] quit
# 然后在外网接口视图下(非必须,如果已经允许则跳过)
# interface GigabitEthernet x/x/x
# firewall packet-filter 2000 inbound
# 然后ping运营商的网关(通常是拨号获取到的下一个跳IP)和一个公网DNS(如114.114.114.114)
ping -c 1000 -t 1 114.114.114.114
先Ping运营商网关,如果这里就丢包,是运营商线路问题,立即联系运营商报修。
如果Ping网关正常,但Ping公网DNS丢包,说明问题在运营商网络后端,也需要联系运营商并提供traceroute路径信息。
Traceroute:
traceroute 114.114.114.114
查看在哪一跳开始出现高延迟或丢包。
第四阶段:日志与配置检查
查看日志: 检查是否有接口翻动(up/down)的记录。
display logbuffer
display trapbuffer
搜索关键字Link status is UP和Link status is DOWN。如果外网接口频繁翻动,会导致间歇性断网/丢包。
检查基础配置:
NAT配置: 确认没有错误的NAT规则导致流量环路或异常。
QoS配置: 如果启用了QoS限速,检查策略是否过于严格,在高峰期导致丢包。
安全策略: 检查防火墙/ACL规则是否有大量Deny计数,或者会话数限制设置得过低。
总结与行动计划
根据您的描述“带机500多台”和“偶尔丢包”,最可能的原因排序如下:
性能达到瓶颈(最大可能): NAT会话数或CPU在业务高峰时段达到阈值,导致IPFQ丢包。
运营商线路问题: 线路质量不佳,偶尔闪断或高延迟。
内网问题: 存在网络环路、ARP攻击或某台设备中毒产生大量异常流量,冲击路由器性能。
立即行动建议:
登录设备: 马上执行第一阶段和第二阶段的检查,重点看display cpu-usage, display session statistics, display interface的丢包计数。
同时测试: 在内部电脑上开始Ping内网网关和公网IP,与你的设备监控同步进行,进行第三阶段的排查。
联系支持: 如果通过以上步骤确认是设备性能瓶颈(会话数或CPU过高),那么需要考虑:
短期优化: 优化NAT会话老化时间,限制单IP的连接数,对非关键业务进行流量限制(QoS)。
根本解决: 规划升级到更高性能的路由器,如MSR56-60/80系列或更高级别的产品。
为什么我打开了设备的telnet功能,但是无法登录,连接上去就中断
为什么我打开了设备的telnet功能,但是无法登录,连接上去就中断
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
有多少个终端在线? 内网ping测试有丢包没有? 网络不稳定的时候,外网连接数整体再多少左右?