• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

H3C SecPath ACG1000设备异常重启

2天前提问
  • 0关注
  • 0收藏,47浏览
粉丝:0人 关注:0人

问题描述:

发现在4分钟内设备出现上下行带宽为零的情况,登入设备下载了健康检测日志,发现CPU检测、内存检测、session检测在这段时间内均为零,接口提示断开,14分钟重连恢复,这可能是什么原因造成的,怀疑设备因内存太高重启导致,time, dp_memory, cp_memory, total_memory,这几个数重启完成后变小,这三个参数代表什么含义。

最佳答案

粉丝:13人 关注:1人

你遇到的这个问题,很可能是设备内存使用率过高,触发了自我保护机制导致的重启。


你提到的这几个参数,是判断内存瓶颈的核心指标:

  • total_memory:设备总的物理内存大小,代表了设备能使用的内存上限。

  • dp_memory (Data Plane Memory)数据平面内存。主要负责报文的快速转发、QoS、ACL等核心业务,需要高效运转,通常由专用硬件处理。

  • cp_memory (Control Plane Memory)控制平面内存。负责运行路由协议、ARP、管理配置等“控制”功能,对CPU和内存的消耗更高。

这三个参数重启后变小,很可能说明重启前cp_memorydp_memory出现异常占用,设备自动重启释放资源以恢复正常。


 故障原因推测与排查

1. 设备自身性能瓶颈或配置问题

  • 会话数过高dp_memory占用过高,通常与并发会话数有关。

    • 排查方法:在故障前通过display session statistics查看会话总数、新建速率是否超规格。

    • 解决方法:检查是否开启session fast-mode提升性能;若长期接近设备最大规格,考虑更换更高性能设备。

  • 开启过多DPI/应用识别功能:深度包检测(DPI)和应用识别会大量消耗cp_memorydp_memory

    • 排查方法:检查是否开启过多应用识别、IPS等功能。

    • 解决方法:审视功能必要性,减少非必要的检测项或升级硬件。

  • 存在大量半连接:SYN Flood等攻击会导致大量半连接,耗尽dp_memory

    • 排查方法:通过display session table查看TCP连接状态,重点关注大量SYN_RECEIVED状态的会话。

    • 解决方法:配置攻击防范、限制半连接数量。

2. 外界网络因素导致

  • 遭受网络攻击:遭受DDoS攻击,特别是会话耗尽攻击,会快速耗尽dp_memory

    • 排查方法:检查接口流量是否有异常突发,分析是否有针对特定IP或端口的流量洪水。

    • 解决方法:部署专业的DDoS防护设备,或在路由器/防火墙上启用URPF、流量限速等安全功能。

  • 链路层问题:光纤链路不稳定,信号质量差可能导致数据包重传,间接影响性能。

    • 排查方法:检查光模块收发光功率是否在正常范围。

    • 解决方法:尝试更换光模块或光纤,排查链路隐患。

3. 软件层面缺陷(BUG)

  • 设备软件版本BUG:某些软件版本存在内存泄漏、进程崩溃等缺陷,导致内存无法释放。

    • 排查方法:通过display version查看软件版本号,联系H3C技术支持或查询版本说明书,确认是否属于已知BUG。

    • 解决方法:升级到推荐的稳定版本。

  • 数据库异常:数据库进程异常,日志积累也会消耗内存。

    • 排查方法:检查日志中是否存在“数据库重启失败”等告警。

    • 解决方法:若版本存在已知数据库BUG,可尝试升级修复;在技术支持指导下,重启数据库进程(高风险操作,建议优先升级版本)。


 建议操作步骤

第一步:紧急恢复(业务已中断)

如果网络业务已中断,优先恢复业务。可以尝试以下两种方法,但注意重启会清除现场信息,建议重启前尽量保存诊断信息。

  • 方法一:通过Console口或SSH登录设备,执行reboot命令重启。

  • 方法二:直接断电后重新上电。

第二步:信息收集与诊断

恢复业务后,联系技术支持时,请务必提供以下信息:

  • 设备当前状态:提供display versiondisplay devicedisplay memorydisplay process memorydisplay session statisticsdisplay logbuffer等命令输出。

  • 历史日志:提供故障发生前约一周的日志,尤其是包含memoryerrorfaultrestartreboot等关键字的记录。

  • 具体的故障时间点:精准的故障时间点能帮助技术人员更快定位。

暂无评论

2 个回答
粉丝:4人 关注:9人

一、参数含义
1. dp_memory:数据平面内存,供流量转发、会话维护、DPI检测等转发类业务使用;
2. cp_memory:控制平面内存,供设备管理、协议运行、日志处理、配置加载等控制类进程使用;
3. total_memory:整机可用内存,重启后数值变小是正常现象,属于系统内核、基础进程启动后的预占用,展示值为剩余可用总内存。
二、故障根因判断
你的现象完全符合设备重启过程表现:重启中设备停服,接口断连、监控无采样所以所有指标归零,14分钟是系统启动+业务加载的耗时。
大概率是内存占满触发OOM保护重启,也可能是电源波动、版本BUG、硬件故障。
三、排查步骤
1. 执行display reboot-record查看官方记录的重启根因;
2. 执行display logbuffer | include OOM确认是否有内存耗尽触发的重启日志;
3. 若为内存过高导致,优化配置:关闭未使用的审计功能、下调会话老化时间、限制并发会话阈值;
4. 无明确软件原因的话,先升级到最新稳定版本(提前备份配置+日志),仍复现则排查硬件/电源。

暂无评论

粉丝:10人 关注:2人

先直接回答你最关心的:这三个参数就是控制面、数据面、总内存;你看到它们归零然后重启后变小,基本就是数据面内存(dp_memory)耗尽,触发系统保护,把业务全杀了 / 直接重启,和你怀疑的 “内存太高导致重启” 完全吻合。

一、四个参数含义(ACG1000 特有)

  • time:日志采样时间点
  • dp_memory(Data Plane):数据面内存
    专门用来处理流量、会话、转发、特征库匹配、审计等业务转发内存
    特点:占用大、涨得快、满了直接丢包 / 断流 / 重启
  • cp_memory(Control Plane):控制面内存
    用来跑配置、路由、SSH/WEB、日志管理、系统调度等管理内存
    特点:占用稳定,一般不会满。
  • total_memory整机总内存 ≈ dp + cp + 系统预留
你看到的现象:
异常时:CPU、内存、session、带宽全为 0,接口断开
重启后:dp_memory /cp_memory/total_memory 数值明显变小
说明:断流那段时间,系统已经把业务进程杀死 / 内核崩溃,所有业务资源清零;重启后内存重新分配,所以数值 “变小”(实际是释放了泄漏 / 僵尸内存)

二、为什么会 4 分钟归零、14 分钟恢复?

典型的 ACG1000 内存泄漏 + 数据面 OOM(内存耗尽) 场景:
  1. 长期运行内存泄漏
    • 特征库升级、策略复杂、应用识别 / 审计开太多、长时间不重启
    • dp_memory 慢慢涨,不释放
  2. 到达阈值 → 系统保护机制触发
    • ACG1000 默认:dp_memory 超过 95% 持续一段时间 → 主动断流、杀会话、清业务
    • 严重时:直接重启(你遇到的就是这种)
  3. 重启后恢复
    • 泄漏的内存被释放,dp_memory 回到正常水平
    • 所以你看到重启后三个内存参数都变小

三、和你日志现象完全对上

你日志里:
  • CPU、内存、session 全 0:业务进程已被杀死 / 内核挂了
  • 带宽为 0、接口断开:数据面转发停了
  • 14 分钟后恢复:设备自动重启 / 系统恢复完成
结论:就是 dp_memory(数据面内存)耗尽导致的业务中断 + 重启

四、接下来怎么排查 / 解决(实用步骤)

1. 先确认内存是否长期偏高

在正常时(没断流)看:
plaintext
display memory display dp memory
重点看:
  • dp_memory 使用率是否经常 >90%
  • 是否缓慢上涨不回落

2. 最常见原因(ACG1000 高发)

  • 特征库 / 应用库太新但设备内存小(如 4G 内存设备装了 8G 以上的大特征库)
  • 审计全开、日志量巨大(会话日志、流量日志、应用日志都存本地)
  • 策略复杂、会话数太多(上万并发会话 + 深包检测)
  • 版本 bug 导致内存泄漏(老版本 R6616 之前很多泄漏问题)

3. 临时缓解(先避免再重启)

  • 关闭不必要的审计:只开关键业务审计,关全流量审计
  • 清理本地日志:reset logbuffer、删除旧硬盘日志
  • 减少并发会话:限流、清理无用策略
  • 定期重启:每周一次(临时止血)

4. 根治建议

  • 升级到最新稳定版本(R6616Pxx 及以上,修复大量内存泄漏)
  • 确认特征库适配:4G 内存设备用 “轻量版特征库”,8G 及以上用完整版
  • 扩容内存(如果是 4G 机型,长期高负载建议升级到 8G)

五、总结一句话

dp_memory = 数据面转发内存,满了就断流 / 重启;cp_memory = 管理内存,一般没事;total_memory = 总内存。你这个现象就是典型的数据面内存耗尽触发的系统保护重启。

暂无评论

编辑答案

你正在编辑答案

如果你要对问题或其他回答进行点评或询问,请使用评论功能。

分享扩散:

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作

举报

×

侵犯我的权益 >
对根叔社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明