UIS 超融合虚拟机 ping 延迟高、偶发超时 完整排查思路
现象:终端 ping 虚拟机平均延迟高、随机出现 800ms + 延迟 / 丢包,同网段 / 跨网段终端均有问题,按从易到难、先网络后虚拟化再硬件顺序排查,附现场命令 & 检查点。
一、先快速界定范围(第一步必做)
- 区分故障对象
- 仅单台虚拟机异常:问题聚焦该虚拟机、虚拟网卡、虚拟机内部
- 所有虚拟机都异常:问题聚焦主机物理网络、虚拟交换机、集群、存储
- 区分终端位置
- 同网段也超时:排除三层路由 / 网关问题,优先查二层、虚拟网络、主机负载
- 仅跨网段异常:重点查网关、ACL、带宽、路由、防火墙会话
- 基础 ping 测试
- 终端 ping 宿主机物理管理 IP / 业务 IP:判断物理网络是否抖动
- 宿主机本地 ping 本机虚拟机 IP:隔离物理网络,看是否纯虚拟化层问题
- 虚拟机内 ping 网关、ping 同网段其他虚拟机:判断虚拟机内部栈是否异常
二、第一层排查:物理网络(最常见诱因)
1. 接入交换机 / 上联链路抖动、错包、端口异常
UIS 主机网口接物理交换机,端口协商、错包、风暴都会导致 ping 抖动。
交换机侧检查(H3C / 华为通用)
# 查看端口收发包、错包、丢包、CRC、脉冲错误
display interface GigabitEthernet 1/0/1
# 重点看:Input errors、CRC errors、Runts、Giants、Drops
# 有数值持续增长 = 链路质量差
# 查看端口协商、双工、速率
display interface brief
- 两端自协商不一致、一端自协商一端强制 → 频繁丢包 / 延迟跳变
- 光模块 / 网线老化、光衰异常、端口被风暴压制
- 上联链路带宽占满、广播风暴
- 两端网口统一配置:
undo negotiation auto + 强制速率 / 全双工
- 更换网线 / 光模块,清理端口统计再观察
- 开启风暴抑制(广播 / 未知单播 / 组播)
2. UIS 主机物理网口状态(CVK 主机执行)
SSH 登录 CVK 宿主机,查看物理网卡负载与错误:
# 查看网口统计、错包
ethtool -S eth0
# 查看网卡速率、双工
ethtool eth0
# 实时看带宽占用
sar -n DEV 1
存在大量 rx_errors/tx_errors 直接定位物理链路故障。
三、第二层排查:虚拟化网络(虚拟交换机、端口组、虚拟网卡)
1. 虚拟交换机(OVS)流量与端口异常
UIS 默认使用 OVS 虚拟交换机,端口队列拥堵、流表异常会造成延迟突增。
CVK 主机命令
# 查看OVS所有端口、虚拟网卡对应关系
ovs-vsctl show
# 查看端口丢包、队列拥堵
ovs-dpctl show
重点观察:drop、error 计数是否持续上涨。
2. 虚拟机虚拟网卡配置问题
-
虚拟网卡模式 / 类型不匹配
老旧网卡类型(e1000)性能差、易抖动,优先使用
VirtIO 网卡。
操作:UIS 前台 → 编辑虚拟机 → 网卡类型改为
VirtIO,重启虚拟机生效。
-
虚拟机网卡队列、MTU 不匹配
全网统一 MTU(建议标准 1500),不要随意改巨型帧,易出现分片延迟 / 丢包。
-
虚拟机内检查网卡状态(Windows/Linux)
- Windows:任务管理器 → 性能 → 以太网,看是否流量突刺、队列拥堵
- Linux 虚拟机:
ethtool eth0、dmesg 查看网卡报错、中断异常
3. 端口组策略限制
UIS 端口组是否配置:限速、ACL、安全组、流量整形
- 限速过低会导致队列排队,延迟飙升
- 安全组规则过多、规则匹配异常,造成报文转发延迟
排查:临时移除端口组限速 / 安全组,测试 ping 是否恢复。
四、第三层排查:CVK 主机资源负载(CPU / 内存 / 中断)
主机 CPU 过载、软中断过高,是随机高延迟、偶发超时的高频原因。
CVK 宿主机执行命令
# 整体负载
top
# 查看软中断、中断(重点!虚拟化网络延迟头号元凶)
top -d1 # 看 %si 软中断占比
# 正常:si <10%;持续 >30% 必然网络卡顿、ping抖动
# 查看CPU上下文切换、中断
mpstat -P ALL 1
- 宿主机 CPU 跑满、虚拟化负载过高
- 网卡中断没有做中断亲和,多网卡争抢 CPU 核心,导致报文转发排队
- 大量虚拟机 + 高并发业务,CPU 算力不足
- 迁移部分虚拟机到其他空闲主机,降低单台 CVK 负载
- 优化网卡中断绑定(高负载环境必做)
五、第四层排查:存储 IO 延迟(极易被忽略)
虚拟机磁盘 IO 卡顿,会连带系统栈卡顿,表现为 ping 延迟突增、偶发超时(看似网络问题,实际是存储)。
1. 宿主机查看存储负载
# 磁盘IO使用率、等待队列
iostat -x 1
# 重点看 %util、await
# %util 接近100% / await >20ms = 存储拥塞、IO延迟大
2. UIS 前台查看存储状态
- 进入 超融合存储 → 磁盘、块存储、性能监控
- 查看:IOPS、带宽、读写延迟、磁盘告警、坏块、重构任务
常见场景:
- 硬盘故障、磁盘重构、均衡任务占用大量 IO
- 多台虚拟机同时读写,存储池 IO 打满
- 缓存策略异常、SSD 缓存失效
只要存储await偏高,虚拟机整个系统都会 “反应慢”,ping 自然延迟跳变。
六、第五层排查:虚拟机内部问题(系统 / 进程 / 病毒)
- 虚拟机内 CPU / 内存跑满:杀毒、同步更新、后台下载、恶意进程占用资源
- 虚拟机防火墙 / 安全软件拦截、网络策略限制(Windows Defender、第三方杀毒)
- 虚拟机网卡驱动异常:重装 VirtIO 驱动
- 虚拟机路由、ARP 异常:
# Windows 查看ARP、网关
arp -a
route print
存在 ARP 欺骗、网关 MAC 漂移会随机断流 / 高延迟。
七、第六层:跨网段额外排查(非同一网段终端)
- 网关(防火墙 / 三层交换机):会话表满、ACL、带宽限速、CPU 高
- 三层链路带宽占用、路由震荡、静态路由 / OSPF 频繁切换
- 防火墙会话老化、NAT 规则异常
八、现场快速排查顺序(精简版,直接照着做)
- 终端 ping CVK 宿主机物理 IP → 判断物理网络是否正常
- CVK 本地 ping 虚拟机 IP → 判断虚拟化网络 / 主机负载
- 看交换机端口:错包、CRC、协商模式
- CVK 执行
top + mpstat → 检查 CPU / 软中断
- CVK 执行
iostat → 检查存储 IO 延迟
- 虚拟机网卡改为 VirtIO,检查内部驱动 / 进程 / 防火墙
- 检查 UIS 端口组限速、安全组策略
- 集群层面:是否有节点离线、存储重构、集群同步异常
九、临时应急 & 根治建议
- 应急:将故障虚拟机迁移到其他负载低的 CVK 主机,快速验证是否主机问题
- 根治
- 全网网口统一强制速率 + 全双工,关闭自协商
- 虚拟机网卡统一使用
VirtIO 并安装配套驱动
- 高负载主机优化网卡中断亲和、扩容 CPU / 内存
- 检查存储磁盘健康,关闭不必要的存储重构 / 均衡任务
- 交换机开启广播风暴抑制
暂无评论