• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

超融合管理平台高可用性备机故障告警

1天前提问
  • 0关注
  • 0收藏,44浏览
粉丝:0人 关注:0人

问题描述:

提示  超融合管理平台高可用性备机故障告警

3 个回答
粉丝:4人 关注:9人

排查步骤及命令
1. 硬件巡检:检查备机电源、风扇、物理链路是否正常,通过HDM(iLO)登录备机BMC界面查看硬件告警、开机状态。
2. 集群状态检查:登录主管理节点,执行show ha status查看HA集群状态,确认备机心跳、数据同步状态。
3. 链路连通性检查:主节点ping备机心跳接口IP,检查主备心跳/管理链路是否丢包,排查互联交换机端口配置是否异常。
4. 服务状态检查:登录备机执行service uis-manager status查看管理服务运行状态,异常时先备份平台全量配置,再执行service uis-manager restart重启服务。
5. 日志定位:执行show log system、show log ha查看系统及HA日志,定位具体故障根因。
注意
涉及节点重启、服务重启操作前必须备份配置,未定位故障前禁止主动触发主备切换。

暂无评论

粉丝:13人 关注:1人

收到“高可用性备机故障告警”确实会让人紧张,不过别担心,这通常是可修复的软件或硬件问题。核心思路是“先确认、再备份、后修复”。我整理了一个标准的处理流程,希望能帮你一步步解决问题。


 第一步:初步诊断与风险规避

在进行任何操作前,务必先做这几件事,以避免误判或扩大影响:

  • 检查备机物理状态:登录被监控的备机硬件管理系统,查看CPU、内存、磁盘等硬件是否有故障告警。

  • 验证网络连通性:检查主备节点间的网络是否稳定,是否存在丢包或延迟。

  • 确认业务影响:此时“高可用”功能已降级,主节点若再故障将无法自动切换。建议暂停非必要的重大变更,直至修复。

  • 检查管理平台版本:登录管理平台,确认当前运行的超融合软件版本号,这对后续的修复至关重要。


 第二步:故障排查与原因定位

2.1 关键信息收集

你需要收集以下信息来定位根本原因:

  • 详细告警信息:在管理平台查看告警详情,重点关注“备机心跳丢失”、“主机网络不可达”等关键词。

  • 主机与集群状态:在平台界面检查备机的“状态”和“运行时间”,确认其是否为“已断开”或“故障”状态。

  • 系统日志分析:使用SSH登录备机后台,排查/var/log/messages日志文件,查找故障时间点前后的“error”、“fail”、“timeout”等关键词。

  • 组件健康检查:查看管理平台组件(如监控、数据库)和虚拟化核心组件(如libvirtd)的运行状态。

2.2 常见故障原因对照

故障原因分类常见根因
物理硬件故障硬盘损坏/掉盘、内存错误、电源故障、主板问题、网卡或光纤/网线故障
网络连接问题心跳网络中断、物理交换机端口故障、网线/模块松动、路由/VLAN配置错误、网卡“亚健康”
操作系统/软件异常内核崩溃(Kernel Panic)、磁盘空间写满、关键进程假死/崩溃、操作系统文件损坏
高可用组件故障集群共享存储连接异常、心跳服务中断、Fence设备故障
虚拟化平台问题虚拟化管理代理服务异常、KVM/QEMU组件故障、虚拟机配置数据损坏


 第三步:制定并执行修复方案

根据排查结果,选择最合适的修复方案。

方案A:基础修复(适用于非硬件故障)

  • 重启服务:在备机后台,尝试重启监控或集群管理服务(需根据具体服务名操作)。

  • 重启主机:在非业务高峰时段,对备机执行优雅重启reboot)。若无法SSH,可尝试通过BMC/IPMI进行电源重置。

  • 检查并释放磁盘空间:清理/var/log等分区下的旧日志,防止因磁盘写满导致服务异常。

方案B:标准替换流程(适用于硬件故障或重启无效)

  • 准备替换节点:准备一台硬件配置、硬盘容量与故障备机完全一致的新服务器。

  • 安装相同版本系统:在新服务器上安装与现网主节点完全相同的操作系统和超融合软件版本

  • 删除故障备机:参考官方文档,从集群中安全删除故障备节点。

  • 添加新备机:将新节点作为备机加入现有集群,系统会自动同步数据。

方案C:寻求官方技术支持

如果以上方法都无法解决,或者操作中遇到意外情况,请务必立即联系新华三技术支持(400-810-0504),并提供以下关键信息:告警截图、详细的故障时间、/var/log/messages等日志文件、已执行的排障步骤。这有助于他们快速定位并解决问题。

暂无评论

粉丝:10人 关注:2人

这个告警就是:管理平台双机热备的备管理节点离线 / 不可用 / 同步失败,当前只剩单机运行,管理面存在单点风险。下面给你一套可直接落地的排查与恢复步骤(UIS 7.x 通用)。

一、先在界面确认状态

登录 UIS 管理平台 → 进入:
管理 → 双机热备管理
  • 看 “备机状态”:离线 / 异常 / 数据同步异常
  • 看 “主备通信状态”:是否断开
  • 记录:主节点 IP、备节点 IP、管理虚 IP

二、快速排查(按顺序)

1)网络连通(最常见)

主节点备节点分别执行:
bash
运行
ping 对端物理IP ping 管理虚IP
  • 不通:检查管理网交换机 / 端口 / VLAN / 防火墙策略(主备必须二层可达、同网段)。
  • 通但丢包:检查网口速率 / 双工、是否有广播风暴。

2)备机主机状态

  • 备机是否开机、HDM 是否可访问
  • 备机是否被改了 root 密码 / 主机名 / IP(会直接断连)
  • 备机磁盘是否满、inode 是否耗尽:
bash
运行
df -h df -i
inode 满会导致 cmsd 无法建连接,直接报备机故障。

3)双机服务与日志(定位根因)

备机上查看热备日志:
bash
运行
tail -f /var/log/cmsd/cmsd.log
常见报错:
  • Connection reset by peer:主备连接被断开(网络 / 服务重启 / 防火墙)
  • recv timeout:备机收不到主节点同步数据
  • negotiate msg fail:版本不一致或配置被改
查看服务状态:
bash
运行
systemctl status cmsd systemctl restart cmsd # 可尝试重启热备服务

4)数据同步状态

在双机热备页面看:
  • 数据同步进度:是否 100%
  • 同步异常:通常是磁盘 IO 差、主备数据不一致、版本不一致

三、常见原因与对应处理

  1. 备机断电 / 宕机 / HDM 告警
    • 处理:开机、修复硬件、进系统后重启 cmsd
  2. 管理网不通 / 跨 VLAN / 防火墙拦截
    • 处理:主备必须同管理 VLAN、放行 80/443/8080 及双机通信端口
  3. root 密码被改(最隐蔽)
    • 处理:在主平台 → 主机 → 找到备机 → 重新输入 root 密码 → 点击 “连接主机”,重建信任
  4. 备机磁盘满 /inode 满
    • 处理:清理日志 / 旧包,释放 inode;必要时扩容系统盘
  5. 版本不一致(主备升级不同步)
    • 处理:将备机升级到与主节点完全一致的 UIS 版本

四、恢复备机(数据正常后)

  1. 确保主备网络通、密码正确、版本一致
  2. 双机热备管理页面:
    • 先 “取消热备”(仅备机异常时)
    • 再 “重新搭建热备”,等待数据同步完成(时间取决于数据量)
  3. 同步完成后,备机状态变为 “正常”,告警消除

五、重要提醒

  • 备机故障期间,管理功能可用但无高可用,主节点挂了会无法管理集群。
  • 不要随意重启主节点;修复备机前,先确认存储集群健康(无降级)。

暂无评论

编辑答案

你正在编辑答案

如果你要对问题或其他回答进行点评或询问,请使用评论功能。

分享扩散:

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作

举报

×

侵犯我的权益 >
对根叔社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明