现场为新开局,现在交换机日志提示带宽不足。想请教各位大佬。日志中的chassis:1,slot:5,chipid:0,port:44是1/5/0/44口吗?但是我这个接口都没有线路。
chassis:1,slot:2,chipid:1,port:60是指定什么?交换机也没有第60口呀。
以下为交换机日志:
%Jun 15 15:30:31:448 2026 BGW_HX_S10508X-G DEV/4/BOARD_WARNING_OCCUR: Board warning alarm occurred. (PhysicalIndex=68, PhysicalName=Board 2, RelativeResource=(chiptype:switch bandwidth,chassis:1,slot:2,chipid:1,port:46), ErrorCode=423037, Reason=The transmit bandwidth usage of the switch chip link (connecting the switch fabric chip) exceeded 90%.)
%Jun 15 15:30:05:671 2026 BGW_HX_S10508X-G DEV/4/BOARD_WARNING_OCCUR: Board warning alarm occurred. (PhysicalIndex=68, PhysicalName=Board 2, RelativeResource=(chiptype:switch bandwidth,chassis:1,slot:2,chipid:1,port:60), ErrorCode=423036, Reason=The receive bandwidth usage of the switch chip link (connecting the switch fabric chip) exceeded 90%.)
%Jun 15 15:26:59:473 2026 BGW_HX_S10508X-G DEV/4/BOARD_WARNING_OCCUR: Board warning alarm occurred. (PhysicalIndex=71, PhysicalName=Board 5, RelativeResource=(chiptype:switch bandwidth,chassis:1,slot:5,chipid:0,port:44), ErrorCode=423037, Reason=The transmit bandwidth usage of the switch chip link (connecting the switch fabric chip) exceeded 90%.)
%Jun 15 15:26:59:470 2026 BGW_HX_S10508X-G DEV/4/BOARD_WARNING_OCCUR: Board warning alarm occurred. (PhysicalIndex=71, PhysicalName=Board 5, RelativeResource=(chiptype:switch bandwidth,chassis:1,slot:5,chipid:0,port:44), ErrorCode=423036, Reason=The receive bandwidth usage of the switch chip link (connecting the switch fabric chip) exceeded 90%.)
一、先解答你两个核心疑问(重点)
1. 日志里的 port 不是对外业务电口 / 光口,是芯片到交换网板(Fabric)的内部互联通道
S10508X-G 是框式分布式交换机:业务板卡上的交换芯片,通过板内高速内部通道连接机箱交换网板 Fabric,日志里 chipid:x,port:xx 是芯片内部 fabric 通道编号,和设备外部面板接口完全无关。
chassis:1,slot:5 = 1 号机箱、5 号业务线卡
chipid:0 = 5 号板卡上第 0 颗交换芯片
port:44 = 这颗芯片通往 Fabric 网板的内部通道 44,面板上不存在这个接口,插不插线完全不影响
同理:
slot:2,chipid:1,port:60 = 2 号业务板卡 1 号芯片、第 60 条 Fabric 内部通道,设备面板没有 60 口,和外部布线无关。
2. 日志告警真实含义
plaintext
The transmit/receive bandwidth usage of the switch chip link (connecting the switch fabric chip) exceeded 90%.
翻译:业务板芯片与交换网板之间的内部互联通道收发带宽占用超过 90%
ErrorCode 423036:接收方向超 90%
ErrorCode 423037:发送方向超 90%
不是某个业务接口带宽跑满,是板卡和机箱交换网板之间的整机交换背板通道拥塞。
二、新开局出现该告警常见根因
单块业务板卡流量过载,上下行流量集中在同一块板卡,超出该板卡 Fabric 上行容量
比如 slot5 所有接入 / 汇聚口大量双向流量,全部挤在 5 号板卡的芯片 Fabric 通道,打满内部背板通道。
板卡间跨板流量过多(不同槽位业务板互相转发),Fabric 交换网板转发压力超限。
存在广播 / 组播风暴:环路、终端异常发包、大量组播复制,成倍占用 Fabric 内部带宽。
IRF 堆叠场景:堆叠链路流量过大,跨框流量全部消耗 Fabric 资源。
业务板卡 / 交换网板硬件故障、通道异常丢包,流量模型异常冲高。
三、现场排查操作步骤
1. 查看对应槽位整板流量负载
plaintext
# 查看整机所有业务板Fabric内部通道带宽占用
display device fabric utilization
# 单独查看2号、5号槽位板卡芯片转发统计
display chip traffic slot 2
display chip traffic slot 5
# 查看整机接口流量,定位高负载业务端口
display interface brief | include up
重点看 slot2、slot5 下所有在线接口的入 / 出带宽,确认是否存在大量大流量业务。
2. 排查广播风暴、环路
plaintext
# 查看各VLAN广播包速率
display storm statistics
# 检查环路告警
display loopback-detection
新开局容易出现接入交换机环路,广播风暴瞬间打满背板 Fabric 通道。
3. 检查跨板 / 跨 IRF 流量
plaintext
# 查看跨板转发统计
display chip cross-board traffic
# IRF场景查看堆叠链路流量
display irf topology
display interface Ten-GigabitEthernet X/X/X
大量跨槽、跨框业务流量会持续消耗 Fabric 带宽。
4. 临时缓解 + 长期优化方案
临时缓解
梳理 slot2、slot5 高流量业务,部分业务迁移至空闲槽位业务板,分散 Fabric 压力;
接入侧配置广播风暴抑制,降低异常广播占用背板资源:
plaintext
interface GigabitEthernet 1/0/X
storm-control broadcast bandwidth 100000
长期优化
流量分层规划:上下行汇聚尽量放在同一块业务板,减少跨板转发;
扩容交换网板 Fabric(S10508X-G 支持多块 Fabric 负载分担);
大流量业务独立分配槽位,避免多业务挤在单块板卡;
配置组播复制优化、VLAN 隔离,减少广播域范围。
四、风险说明
Fabric 内部通道持续超过 90% 占用,会出现:
跨板业务转发延迟、随机丢包;
语音 / 视频等实时业务卡顿;
极端高负载下芯片触发拥塞保护,整机流量抖动。
极简总结
日志里 chipid,port 是芯片连交换网板的内部通道编号,不是面板业务口,面板无 44、60 口和外部布线无关;
告警本质:2/5 号业务板卡和机箱 Fabric 交换网板之间的背板通道带宽占用超 90%;
核心排查:单槽位流量过载、广播环路、大量跨板 / IRF 转发流量;
解决:分流业务到空闲板卡、抑制广播风暴、优化组网减少跨板转发。
chassis:1,slot:5,chipid:0,port:44 是物理接口 1/5/0/44 吗?port:44 并不是指前面板上的第44个用户侧物理接口。在高端交换机的内部架构中,这个参数指的是业务单板(Slot 5)与背板交换网板(Switch Fabric Chip)之间的内部通道编号(或内部逻辑端口号)。因此,即使您在前面板上看到对应的物理端口没有插线,只要该单板整体接入交换网的内部总线流量超过了阈值(90%),系统依然会触发此告警。chassis:1,slot:2,chipid:1,port:60 是指定什么?为什么没有第60口?port:60 也不是用户侧的物理端口。它代表 Slot 2 单板内部的第60个内部互联通道/逻辑端口。由于不同型号的单板其内部芯片组架构和上行交换网板的通道数量设计不同,内部通道号往往会大于面板上实际提供的物理端口总数,所以找不到“第60口”是完全正常的现象。display cpu-defend statistics all 或查看是否有大量的广播/组播报文统计,确认是否存在网络环路或ARP风暴。display interface brief 或查看具体单板的端口流量统计,定位是哪几个物理端口的流量导致了内部总线拥塞。display diagnostic-information)并联系H3C原厂技术支持,以确认是否为单板硬件层面的隐患。暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论