• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

某局点U-Center2.0手动恢复和修改trap定义不定期失败

2021-12-30 发表
  • 0关注
  • 0收藏 1218浏览
粉丝:10人 关注:7人

组网及说明

无特殊组网,U-Center2.0版本为PLAT E0610+IOM E0608L02

问题描述

1、告警恢复操作,页面经常提示“恢复告警失败”。刷新页面查看,查看此告警可能已恢复了,也可能并没有恢复。


2、修改trap定义也是不定期提示修改失败。刷新页面查看trap定义可能已经修改成功,也可能还是未修改的状态



过程分析

现场告警相关pod都是正常运行状态

itom-alarm-dm-7ffcf8bf85-q6qsx                1/1     Running     0          102m

itom-alarm-rs-84d6f4597b-lpm6h                2/2     Running     0          155d

itom-alarm-ui-685ccb9f7f-bm7ff                1/1     Running     0          155d

复现问题后收集itom-alarm-dm日志分析发现

1、告警恢复操作两次,均有收到前台消息,但后台日志均显示操作成功;

2、 三次修改Trap的操作,后台只收到了1次消息,日志显示操作成功

据此,怀疑是前台与消息中间件kakfa的连接出问题,有时不能将消息发送到kafka,或者不能收到后台回复的消息。

因为现场是E0610版本,这个版本确实存在podkafka因为某种原因(例如pod重启,网络故障)断开连接之后,概率性的发生kafka不能重连的问题。这个问题已经通过修改kafka的配置进行过优化,合入的版本是E0612,以及E07的各个发布版本。

若要临时规避,可依次尝试下列操作:

1、 

删除alarm-rspod,使其重启

kubectl get pod -n service-software|grep itom-alarm-rs

执行上述命令,记下NAME

kubectl delete pod [NAME] -n service-software

重启完成后,观察功能是否恢复,如未恢复,则继续执行下面第二步

2、 

删除alarm-dmpod,使其重启

kubectl get pod -n service-software|grep itom-alarm-dm

执行上述命令,记下NAME

kubectl delete pod [NAME] -n service-software

重启完成后,观察功能是否恢复,如未恢复,则继续执行下面第三步

3

kubectl scale deployment kafka-0 kafka-1 kafka-2 -n service-software --replicas=0

在集群所有点上,均执行rm -rf /var/lib/ssdata/kafka,清除脏数据

kubectl scale deployment kafka-0 kafka-1 kafka-2 -n service-software --replicas=1

执行完成后,按照第12步的说明,重启alarm-rsalarm-dmpod

解决方法

若要彻底解决此问题,建议升级U-Center2.0至E0612及其后续版本

若要临时规避,可依次尝试下列操作:

1、 

删除alarm-rspod,使其重启

kubectl get pod -n service-software|grep itom-alarm-rs

执行上述命令,记下NAME

kubectl delete pod [NAME] -n service-software

重启完成后,观察功能是否恢复,如未恢复,则继续执行下面第二步

2、 

删除alarm-dmpod,使其重启

kubectl get pod -n service-software|grep itom-alarm-dm

执行上述命令,记下NAME

kubectl delete pod [NAME] -n service-software

重启完成后,观察功能是否恢复,如未恢复,则继续执行下面第三步

3

kubectl scale deployment kafka-0 kafka-1 kafka-2 -n service-software --replicas=0

在集群所有点上,均执行rm -rf /var/lib/ssdata/kafka,清除脏数据

kubectl scale deployment kafka-0 kafka-1 kafka-2 -n service-software --replicas=1

执行完成后,按照第12步的说明,重启alarm-rsalarm-dmpod,最后刷新页面尝试再次恢复告警或修改trap定义

该案例对您是否有帮助:

您的评价:1

若您有关于案例的建议,请反馈:

作者在2021-12-31对此案例进行了修订
0 个评论

该案例暂时没有网友评论

编辑评论

举报

×

侵犯我的权益 >
对根叔知了社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔知了社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作