设备型号为SR88X,软件版本R8380P11,客户通过第三方网管监控设备CPU等状态。
设备上线之初还未承载业务,网管监控设备发现设备主控CPU占用率平时4%,每经过30分钟到固定时间点上升到14%,持续几秒后自动恢复。
为确认CPU占用率升高具体时间点,并确认当时主控执行的进程,在设备重复执行display clock、display process cpu slot 0,发现20:26:59至20:27:03期间SLOT 0主控CPU占用率为13.9%,其余时间点为4%。异常时间点主要CPU进程为diagd、syslogd、ifmgr、comsh等。
<H3C>display clock
20:26:59 UTC Mon 02/20/2023
Time Zone : UTC add 08:00:00
<H3C>display process cpu slo 0
CPU utilization in 5 secs: 13.9%; 1 min: 4%; 5 mins: 4%
JID 5Sec 1Min 5Min Name
2949 2.2% 0.2% 0.2% diagd
2951 2.0% 0.2% 0.2% syslogd
2974 0.9% 0.0% 0.0% ifmgr
14790 1.4% 0.2% 0.1% comsh
经确认现网网管不存在每30分钟的定时读取设备信息任务,debug snmp packet receive也验证了这一点,因此该问题是设备本身行为。
与研发同事确认,设备从R8380版本开始,增加了每半小时收集板卡丢包信息的功能,该功能默认存在,收集信息后会写入drvmon文件夹。该动作持续仅持续数秒,对CPU占用10%左右,不会影响业务,因此不必特别关注。
20230228_17:30:03:898:# cat /xxx.log
20230228_17:30:03:919:Name: comsh
20230228_17:30:03:935:State: S (sleeping)
20230228_17:30:03:945:Tgid: 17646
20230228_17:30:03:960:Ngid: 0
20230228_17:30:03:986:Pid: 17646
20230228_17:30:03:992:PPid: 2985
20230228_17:30:21:974:# ps | grep 2985
20230228_17:30:22:022: 2985 1 3832 S /sbin/goldd
20230228_17:30:22:055:18124 0 3196 S grep 2985
20230228_17:32:51:287:# more gold.conf
20230228_17:32:51:974:define test{
20230228_17:32:52:023: name SLOTMonitor
20230228_17:32:52:038: test-id 3
20230228_17:32:52:087: module-name INNER
20230228_17:32:52:118: attribute **M**A
20230228_17:32:56:958: interval 00:30:00
20230228_17:32:56:991: min-interval 00:01:00
20230228_17:32:57:040: monitor-script /sbin/monitor.tcl
20230228_17:32:57:104: description This is a real-time test.
20230228_17:40:51:568:<H3C>dir flash:/drvmon/
20230228_17:40:51:614:Directory of flash:/drvmon
20230228_17:40:51:677: 0 -rw- 1990257 Feb 28 2023 16:56:58 moncnt1.log
20230228_17:40:51:743: 1 -rw- 2001586 Feb 03 2023 12:26:56 moncnt1.log.gz
20230228_17:40:51:809: 2 -rw- 2000829 Feb 26 2023 04:56:58 moncnt10.log.gz
20230228_17:40:51:869: 3 -rw- 2000632 Feb 06 2023 00:56:56 moncnt2.log.gz
20230228_17:40:51:933: 4 -rw- 2000780 Feb 08 2023 12:56:58 moncnt3.log.gz
20230228_17:40:51:997: 5 -rw- 2001688 Feb 11 2023 01:56:56 moncnt4.log.gz
此外,现网网管每1分钟轮询一次CPU节点,监控节点为EntityExtCpuMaxUsage,该节点记录设备过去1分钟内最高CPU占用率,因此能稳定采集到设备CPU升高10%现象。如网管监控节点为EntityExtCpuUsage,则仅能观测到过去5秒内CPU占用率,观测到设备CPU升高的可能性会变小。
设备默认存在定时任务,收集板卡丢包等信息并记录,每30分钟占用CPU 10%左右,持续几秒后自动恢复,无法通过配置关闭。该功能不会影响设备稳定运行,无需特别关注。
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
这个功能没有命令行关闭的。不会影响业务,所以没有单独做控制,不过后面应该会进行一些优化,比如把收集信息的任务摊到多个时间点。