Print

关于S7500E产品bDPC任务引起CPU高问题处理方法

2012-05-02 发表

关于S7500E产品bDPC任务引起CPU高问题处理方法

【产品型号】

S7500E

【涉及版本】

S7500ER6635(不含)之前所有版本

【问题描述】

S7500E设备,在长时间运行的过程中,会出现某些单板上的CPU使用率超过60%,通过进一步确认,如果是BDPC任务CPU占用率高导致单板CPU使用率过高,就可以用本案例介绍的方法加以解决。

【原因分析】

BDPC任务是用来处理设备在运行过程中由于芯片异常而产生的错误告警信息。S7500E设备在长时间的运行过程中,会小概率出现某些芯片表项错误,导致持续不断的产生芯片级错误告警信息,而BDPC任务要对该错误告警信息进行记录,导致BDPC任务持续占用较高的CPU,进而导致该SLOTCPU使用率过高(超过60%)。错误的表项一般是当前设备不使用的表项,所以一般不影响业务的运行。

【影响和风险】

  

S7500E/10500设备长时间运行后,小概率出现bDPC任务持续升高一般来说不影响用户的业务,但是由于长期的CPU高,会影响当前SLOT上其它任务占用CPU,进而影响这些任务的运行效率。

 

【规避措施/解决方案】

 

1.查看当前设备运行过程中是否有某个SLOTCPU的使用率高,可通过如下命令行查看

display cpu-usage

Slot 0 CPU usage:

     78% in last 5 seconds

     76% in last 1 minute

     72% in last 5 minutes

如果发现CPU的使用率超过60%,则可断定当前SlotCPU的使用率过高

2.如果当前SlotCPU的使用率过高,可通过如下命令来查看是否是BDPC任务的CPU占用率过高导致当前SlotCPU的使用率高

[H3C-hidecmd]display cpu-usage task slot 0

===== Current CPU usage info =====

CPU Usage Stat. Cycle: 9 (Second)

CPU Usage            : 100%

CPU Usage Stat. Time : 2011-09-16  14:26:02

CPU Usage Stat. Tick : 0x75824(CPU Tick High) 0x4b29177f(CPU Tick Low)

Actual Stat. Cycle   : 0x0(CPU Tick High) 0x23fc8ff0(CPU Tick Low)

 

TaskName        CPU        Runtime(CPU Tick High/CPU Tick Low)

TICK             0%               0/   516c4

STMR             0%               0/   2d6b4

RECV             0%               0/   3b354

DSTK             0%               0/    2ce4

SUBC             0%               0/     ce9

bDPC            65%               0/225652ea

bLK0             0%               0/  132411

DQFD             0%               0/   1051d

.。。。。。。。。。。。。。。。。。。。。。。。

 

发现是由于bDPCCPU利用率过高(65%),导致当前SlotCPU利用率过高。

3.进一步确认导致bDPCCPU利用率过高的原因,可以通过如下命令行查看当前Slotlocal buffer信息

[HP-diagnose]local logbuffer 0 display

Feb 13 2012 15:37:57:0301:unit 0 L2X entry 1146 parity error

Feb 13 2012 15:37:57:0302:unit 0 L2X entry 1146 parity error

Feb 13 2012 15:37:57:0302:unit 0 L2X entry 1146 parity error

    如果local logbuffer 中出现如上类似的几类错误提示,就可以确认bDPC任务CPU高是由

于以下几类芯片硬件表项错误导致的。

目前所知共有如下5类硬件表项错误会导致bDPC任务持续升高。

1VLAN_XLATE entry  parity error

2L2X entry parity error

3ING_IPFIX_SESSION_TABLE/ EGR_IPFIX_SESSION_TABLE entry  parity error

4L3_ENTRY_ONLY entry  parity error

5START_BY_START_ERR

 

解决方法:

1.此告警影响cpu占用率问题可以升级到6635解决。

2.如果现场无法升级,由于这个cpu高实际并不影响业务运行,可以择机选择重启cpu的业务板,敏感局点可以更换单板方式解决。待时机成熟再升级。 

3.如果解决方法(1)(2)都不能满足现场客户要求,可联系产品线处理。

 

如果处理该问题需要支持,请及时联系总部产品线给予指导。