涉及产品:SR66系列 FIP业务板卡
故障现象:
1、每天上午和下午上班高峰期会出现视频卡顿现象,其他时间不定时发生
2、故障时间ping此设备相关地址会有丢包和延迟情况。
3、常规流统统计结果,无特别明显进出报文不一致
1、查看有无逻辑丢包(FGPA丢包)
命令:
[SR6608-probe]
display hardware internal fpga chassis 1 slot 3 register 8a
Read the Reg [0x008a] and the Val is 0x0000 (16进制,正常均为0)
[R6608-probe]
display hardware internal fpga chassis 1 slot 3 register 8c
Read the Reg [0x008c] and the Val is 0x0000
[SR6608-probe]
display hardware internal fpga chassis 1 slot 3 register fa
Read the Reg [0x00fa] and the Val is 0x0000
观察业务故障期间,数值是否跳变。如若可以考虑以下两方面因素
1)、版本问题:
当前年度推荐版本设置FPGA内部共享FIFO为64 Bytes,此局点故障版本CPU发送限速模块的突发值为80K Bytes,超过了上述FPGA共享FIFO的承受能力。
而该FIFO为所有接口共享,当该FIFO满时,会导致所有接口无差别丢包。
2)、镜像端口反制:
当多个接口的流量汇聚到某个接口发送,比如镜像配置(进出方向累加),此时超过镜像端口线速转发,影响与该镜像接口使用相同芯片的其他接口的转发。
2、查看硬件性能指标PKI
[SR6608-probe]
display hardware internal octeon chassis 1 slot 3 pki 0 statistics | include STAT3
//PKI模块有丢包,一般是由于CPU处理能力不足导致的 (16进制,正常均为0)
观察业务故障期间,数值是否跳变。如若可以考虑以下四方面因素
1)使用vlan接口
MAC软转组网(VLAN口转VLAN口)性能较低,同类型使用三层路由口模式,线速差距经研发评估有5倍以上。
2)使用多组软件镜像,且涉及跨框镜像
SR6600 本地镜像local1-4均为软件镜像,主要作用是定位问题使用,不建议镜像大量业务报文(软件镜像,每个报文copy一份上送CPU处理,影响CPU转发性能)
年度版本R7809P25-RPE3,开始支持逻辑镜像,本地local 257-260,(使用硬件芯片处理,不占用CPU性能,但FPGA硬件镜像的规格mirror口最多每板8个满规格)
3)SR6600堆叠组网,且存在大流量跨框
此类设备推荐ECMP方式组网,如若需要使用堆叠,尽量避免大流量跨框使用。
推荐配置聚合口负载分摊模式为 本地优先+本板优先。
[H3C]link-aggregation load-sharing mode local-first
[H3C]link-aggregation load-sharing mode local-first slot-based
4)存在突发单流流量(5元组相同的数据流)
单流流量突发,可能占满某个转发核引起丢包。
查明命令:
monitor process chassis x slot x,按1查看实时,举例:
平常时间:FIP380,业务板存在16个核,流量经过hash分摊在转发核上进行处理。当前核CPU4,idle 26.94%
故障时间:出现突发单流量(5元组相同的数据流)占满CPU4,硬件指标PKI开始计数增值,现场出现视频业务卡顿丢包。
此场景下建议优化配置转发模式:“逐流增强模式”, 作用是逐包模式+软件保序。
(新特性,年度版本下仅型号为FIP-680、FIP-260、FIP-380、FIP-660和SAP-XP4GE32的板卡配置该参数后才能生效。)
命令:[H3C]forwarding policy per-flow enhance
转发模式说明:
per-flow:基于流处理,处理过程保证先进先出(默认方式)。
enhance:增强模式的流处理。配置本参数后,同一条流的入方向、转发和出方向分担到不同的CPU进行处理,从而提升单条流的处理性能。
per-packet:基于报文处理,将报文依次发送到不同的CPU进行处理,不保证报文的处理顺序。
如上所示,一步一步排查,每一步都有对应的整改方案。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作