• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

IMC 看不到新告警,也不能删除旧告警

2天前提问
  • 0关注
  • 0收藏,64浏览
粉丝:0人 关注:1人

问题描述:

IMC 看不到新告警,也不能删除旧告警

检查imcforeground log 发现 :

2024-07-03 20:35:43 [INFO ] [Thread-59] [com.imc.ntam.config.ntatask.func.NoneConfigInfoReceiver::run] this.msgQueue.poll() : 02024-07-03 20:35:43 [INFO ] [Thread-59] [com.imc.ntam.config.ntatask.func.NoneConfigInfoReceiver::run] NoneConfigInfoReceiver run 02024-07-03 20:35:43 [WARN ] [Thread-60] [com.imc.ntam.config.ntatask.func.NoneConfigInfoReceiver$ReceiverMsgMonitor::run] java.net.SocketTimeoutException: Receive timed out

请问这能看出什么原因吗?继续排查的话,需要查看哪些东西呢?查看IMC是否收到告警应该怎么查看?是在那个文件夹里呢?谢谢

2 个回答
粉丝:103人 关注:8人

看看有没有被过滤掉

参考

https://zhiliao.h3c.com/Theme/details/20750


在日常使用中网络设备接口DOWN是一种很常见的故障现象,接口DOWN掉之后相应网段的业务就可能受到影响,如果DOWN掉的恰巧是核心设备的接口,那么影响的范围必然更广。所以当设备接口DOWN掉时作为网管平台iMC会及时的生成对应告警来提醒管理员注意到设备的故障。

但某些情况下,设备接口已经DOWN掉,iMC网管平台上可能并未及时的生成相应告警。本篇对此问题发生时的排查方法进行详细介绍。

网络设备接口发生故障DOWN掉,但iMC上没有及时生成告警。

iMC对设备的监控使用的是SNMP协议,针对设备接口DOWN事件主要有两种感知机制:一种是iMC周期性的轮询设备,全部读取一遍设备的配置从而发现设备接口处于DOWN状态或者其他配置发生变化,由于这种方式会读取大量的SNMP信息从而增加带宽开销和设备负载压力,所以同步频率不宜较快(iMC默认每2小时同步一下设备配置);还有一种是设备在接口DOWN掉时会产生一个Trap事件并以SNMP Trap报文的形式将事件通知给iMCiMC收到之后即可感知设备接口DOWN,进而产生设备接口DOWN的告警。所以及时告警没有生成的问题多是由于设备接口DOWN的TRAP没有发送到iMC来,或者iMC收到之后没有做出正确的解析处理导致的。本文对此问题的排查思路给出详细的说明。

1.检查iMC安装运行情况

iMC智能管理中心采用的是平台(PLAT+组件(如EIA,WSM等)的方式安装部署。而管理网络设备,在设备发送故障时产生告警的功能依赖的是PLAT,也就是说只需要安装部署平台就能够对设备进行监控管理并且能够及时产生告警,而平台的功能模块中最重要的就是资源管理和告警管理了,所以出现问题第一步要检查平台是否安装部署完整并运行正常。可以打开iMC部署监控代理在【部署】页签中查看是否已部署,如下图所示:

然后在【进程】页签中查看iMC的所有进程是否都正常运行,所有的进程都运正常后才能够保证iMC的各项功能都正常。如下图所示:

2.检查设备SNMP配置情况

iMC对设备的管理使用的是SNMP协议,设备故障发生后也是产生SNMP Trap报文通知iMC服务器的。所以接下来就需要检查网络设备的SNMP功能是否已经正确配置并且iMC能识别到设备的详细信息。设备上的SNMP配置主要有:
 snmp-agent
 snmp-agent local-engineid 800063A200E0FC0000026877
 snmp-agent community read public
 snmp-agent community write private
 snmp-agent sys-info version all
 snmp-agent target-host trap address udp-domain 192.168.113.9 params securityname public v2c

iMC在添加设备时需要设备正确的SNMP读写团体字,添加完成后要能够看到设备的详细信息,比如设备名称、设备型号等信息。如下图所示:

说明: 

n  如果配置的是SNMP V1&V2C版本,读团体字必须要配,写团体字最好能够配上,如果是SNMP V3则也需要赋予安全用户对应的SNMP读权限;

n  必须要配置SNMP Trap发送到iMC服务器地址,H3C交换路由在配置Trap发送时要先执行snmp-agent trap enable命令激活一下Trap发送功能,请根据具体设备型号确认;

3.是否上联iMC端口

iMC管理下网络设备的接口可以分为上联iMC接口和非上联iMC接口。如果是非上联iMC的接口DOWN掉,设备的Trap报文发送给iMC正确产生告警,如果是上联iMC的接口DOWN掉,由于DOWN掉之后设备就无法和iMC通信了,所以即使设备产生了Trap也不能发送到iMC,所以iMC也就无法产生告警。一般上联口就是设备路由表中指定的到iMC服务器的出接口,也就是设备给iMC发送报文时使用的源地址那个接口。判断是不是上联口最简单的方法就是当接口DOWN掉之后在设备上ping一下iMC服务器,如果能ping通说明DOWN的不是上联iMC接口,如果ping不通则说明就是上联iMC接口。

4.轮询产生告警

当上联iMC的接口DOWN掉之后,由于iMC已无法和设备正常通信,所以不能收到设备接口DOWN事件的Trap报文,所以此种情况下iMC不能产生设备接口DOWN的告警,而且此时无法进行配置轮询,所以也不能依靠配置轮询机制产生接口DOWN的告警。也就是说在上联iMC接口DOWN的情况下,iMC是不会产生接口DOWN的告警的。但是由于iMC还存在一种状态轮询机制,也就是定期(默认60秒)给所管理的设备发送ping报文探测设备是否还正常在线。此时状态轮询就会发现设备已经不可达了,iMC会产生一个设备不可达的紧急告警,并且设备的图标变成红色。这样管理员也可以关注到此设备故障。

5.服务器是否收到Trap报文

设备接口DOWN掉后会立即生成一个Trap事件并发送Trap报文给iMC服务器,iMC也只有在收到了Trap报文之后才能正常产生对应的告警。所以在设备配置没有问题且DOWN掉的也不是上联iMC接口的情况下首先要登录到iMC服务器,在iMC服务器上开启抓包看是否可以收到设备发送过来的SNMP Trap报文,如下图所示过滤后有输出代表能收到:

说明:

n  默认情况下iMC侧以UDP 162端口接收设备发送的SNMP Trap报文,所以抓包时可以用udp.port == 162来过滤一下,如果iMC侧接收端口有修改,设备上也需要做相应的调整,两边必须保持一致;

n  报文中1.3.6.1开头字样的是MIB OID,对应设备上不同的事件;

6.检查网络问题

如果iMC服务器无法正常收到设备发送过来的Trap报文,则肯定是设备没有发送或者设备到iMC之间的这段网络有问题导致报文未能成功到达接收端。对于设备没发的情况可以在设备上执行debug snmp packet命令来确认,如果在事件发生后有对应的OID输出则证明设备已经产生SNMP Trap报文;对于网络问题可以逐跳排查检查报文丢失在哪一段,重点关注网络的中各个设备的ACL等过滤规则的配置,iMC服务器使用UDP 162端口接收设备发送的Trap报文,要保证这个端口能正常通信。

7.检查服务器端口监听

如果iMC服务器上抓包能够抓到Trap报文,证明设备发送的报文已经成功到达iMC服务器。此时如果iMC还是无法接收则有可能是iMC服务器告警后台端口没有正常监听或者iMC服务器本身的防火墙过滤报文导致。iMC告警后台使用的是UDP 162端口,所以可以在iMC服务器上执行netstat –ano | findstr 162命令来确认,如下图所示代表端口监听正常:

服务器端口监听正常的情况下有可能是报文已经在服务器网卡处正确接收但是由于自身的防火墙设置导致报文无法上传到应用层解封装,所以检查下服务器防火墙过滤规则,测试情况下建议将服务器防火墙先暂时关闭掉;

8.iMC是否收到Trap

以上步骤检查都没有问题后则iMC系统应该是已经能够正确接收并识别设备发送的Trap报文了,在设备接口DOWN掉时可以登录iMC页面点击【告警-Trap管理-浏览Trap】查看是否有记录,如下图所示代表已经正确收到了Trap报文:

9.检查闪断Trap过滤规则

为保证系统的高效运行,iMC定义了很多种Trap过滤规则来拒绝接收一些无用的Trap,登录iMC页面点击【告警-Trap管理-过滤规则】可以看到当前系统所设置的各种过滤规则。如果设备的接口DOWN掉之后又马上UP了,此时可能因为中间间隔时间太短iMC认为是一种偶然发送的闪断事件,所以不产生告警来提示管理员注意。所以首先需要在闪断告警过滤规则中看一下具体定义,如下图所示代表如果接口DOWN/UP发生在3秒内,则iMC会将其过滤掉,不产生相应的告警:

说明:

n  定义闪断Trap:哪些Trap可以作为闪断Trap来判断,只有这里勾选了才会有可能成为闪断Trap

n  闪断时间:DOWN/UP的时间小于此处设置的时间就会判断为闪断;

n  阈值:多次闪断事件发生后也会产生一条异常告警来提示管理员注意;

n  过滤闪断Trap:决定是否过滤闪断Trap

n  时间窗长度:网管系统在本段时间内收到的多条相同Trap作为重复Trap处理,只保留一条;

n  Trap队列长度:Trap队列中保存的最大Trap长度;

10.检查重复Trap过滤规则

在某些事件短期内频繁发生的场景下,为了避免每次都产生告警对管理员的没必要的大量打扰,iMC会将后面重复收到的Trap进行过滤,从而使管理员一段时间内只收到一次事件的告警。所以有可能会出现后续的接口DOWN告警不产生的问题。如下图所示代表在10分钟内或者5000条队列内,iMC只接收一次Trap并只产生一次告警:

11.检查接口过滤配置

为了区分不同的设备接口,做到只有在重要接口DOWN掉时才产生告警的效果,iMC可以单独在某个设备的某个接口下配置是否过滤UP/DOWN告警。登录iMC在【设备详细信息-接口列表】页面可以选择是否进行接口UP/DOWN的过滤配置,如下图所示:

下图可以看到VLAN-interface97这个接口使用的就是全局过滤规则,也就是只根据【告警-Trap管理-过滤规则】中的设置来匹配,如下图所示:

12.检查自定义Trap过滤规则

除了预定义的那几项过滤规则外,iMC也允许管理员根据自己的实际情况来按需定制过滤规则,如下图可以看到管理员已经定义了一个叫做接入层设备告警过滤规则的规则,过滤规则具体的定义方法请参考iMC页面上的联机帮助说明。

说明:

n  未加入iMC管理的设备发送的Trap默认是不接收的,所以设备一定要先加入iMC的管理;

n  对于其他厂商的设备有可能因为MIB结构不同导致告警无法识别也无法接收;

13.检查升级告警规则配置

如果iMC已经正确收到了设备发送的Trap报文,但却还是无法产生对应告警,则需要在iMC页面【告警-Trap管理-Trap升级为告警】规则中查看一下是否有记录,可以输入接口DOWNTrap OID在页面中搜索,默认情况下iMC已经预定义了接口DOWN会升级为告警。

14.检查操作问题

以上步骤都排查没有问题后如果还是无法看到告警有可能是因为查看是的操作错误导致的。主要归纳有2条:

1iMC实时告警页面默认每次只显示最近50条并且是未恢复的告警,如果告警产生的时间较早或者告警已经被恢复了,第一页肯定是看不到的。如下图所示:

查找时可以在全部告警中搜索查看,如下图所示:

2iMC告警相关配置没有生效或者长时间运行产生的一些其他问题。此时可以在iMC部署监控代理中重启一下iMC告警后台进程,此操作除了会短暂停止告警功能外对iMC无其他方面的影响。如下图所示:

15.收集信息

如果以上操作完成后iMC还是无法在设备接口DOWN时及时产生相应的告警,可以收集以下信息发送给H3C技术支持热线协助处理

1)设备型号版本,运行配置;

2iMC版本,部署监控代理截图;

3)设备接口DOWN时的debug信息;

4iMC服务器上的抓包;

 (5Trap浏览中是否可以搜索到接口DOWNTrap,过滤规则配置等其他一些iMC上的配置截图;

无。

没有权限查看

zhiliao_nsHuGg 发表时间:2天前

复制出来了

zhiliao_sEUyB 发表时间:2天前

多谢!!!

zhiliao_nsHuGg 发表时间:2天前
粉丝:181人 关注:0人

您好,看下是否是硬盘故障了

硬盘读写正常

zhiliao_nsHuGg 发表时间:2天前

编辑答案

你正在编辑答案

如果你要对问题或其他回答进行点评或询问,请使用评论功能。

分享扩散:

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作

举报

×

侵犯我的权益 >
对根叔社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明