• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

uis超融合管理平台告警

18小时前提问
  • 0关注
  • 0收藏,44浏览
粉丝:0人 关注:0人

问题描述:

名称,存储集群monitor健康度告警 描述,存储集群monitor出现故障,故障monitor为cvknode3 告警类型,分布式存储告警 告警原因,1.故障监控节点的系统空间利用率过高,2.存储集群网络出现异常,3.monitor进程异常。 恢复建议,1.清理系统空间,降低系统分区利用率,2.检测存储集群网络是否正常,3.重启集群monitor进程。 我在存储界面的存储节点也看到cvknode3节点有异常,该节点的硬盘状态全部异常。监控节点界面状态也是异常,存储外网IP没有列出来。 请问这种情况我应该怎么去排查和解决?

2 个回答
Sun 知了小白
粉丝:0人 关注:0人

根据您提供的详细告警信息(系统空间、网络、进程异常)和界面观察(硬盘全异常、外网IP缺失),这是一个典型的**由底层节点故障(很可能是网络中断或节点失联)引发的连锁反应**。**硬盘全部异常通常是结果而非原因**。请按照以下优先级进行系统性排查:

### 第一阶段:核心问题诊断(聚焦网络与节点状态)

1. **登录CVM管理平台,检查cvknode3主机状态**
* 路径:`资源` -> `虚拟化` -> `计算节点`。
* 确认cvknode3主机本身的**管理状态**(是否在线?)和**业务状态**(是否正常?)。如果该主机已**离线或失联**,那么存储监控服务(monitor)中断、存储网络IP无法显示、以及硬盘异常就都是必然结果。

2. **检查cvknode3节点的网络连通性(最关键步骤)**
* **从CVM或其他正常节点SSH登录cvknode3**。如果**无法登录**,则证明该节点网络或系统已严重故障,需进行带外管理(iLO/iDRAC)检查。
* **如果能登录**,依次执行:
a. **检查存储网络接口**:运行 `ip addr show` 或 `ifconfig`,查看存储集群网络接口(通常名为 `br-storage` 或类似)是否处于 `UP` 状态,是否获得了正确的IP地址(即“存储外网IP”)。如果接口 `DOWN` 或无IP,则是网络配置或交换机端口故障。
b. **测试存储网络连通性**:从cvknode3上 `ping` 其他存储节点的存储IP地址,看是否通。如果不通,问题在交换机或防火墙策略。
c. **检查路由**:运行 `route -n`,查看存储网络的路由是否正确。

### 第二阶段:根据诊断结果采取相应措施

#### **场景A:发现cvknode3主机离线或网络完全不通**
* **根本原因**:节点硬件、系统或底层网络故障。
* **解决步骤**:
1. **通过带外管理口(如H3C的HDM)登录cvknode3服务器**,检查:
* 电源状态、是否有硬件告警(如风扇、电源、内存)。
* 系统是否卡住、宕机或处于救援模式。
2. **检查物理连接**:确认cvknode3的存储网卡物理连线、对应交换机端口状态(是否被禁用或error-disable)。
3. **恢复节点**:根据带外检查结果,可能需要进行**重启主机**。重启后,观察系统能否正常进入,存储网络接口能否恢复。

#### **场景B:cvknode3主机在线,但存储网络接口异常**
* **根本原因**:存储网络配置丢失、驱动问题或交换机端口隔离。
* **解决步骤**:
1. **尝试重启存储网络服务**(在cvknode3上):
```bash
systemctl restart network # 或 systemctl restart networking
# 或针对特定服务,如
systemctl restart br-storage
```
2. 检查并修复网络配置文件(如 `/etc/sysconfig/network-scripts/ifcfg-br-storage`)。
3. 联系网络管理员,检查连接cvknode3的交换机端口配置(VLAN、STP等)。

#### **场景C:cvknode3主机及网络均正常,但存储服务异常**
* **根本原因**:系统空间满或monitor进程僵死。
* **解决步骤**(按顺序):
1. **检查系统空间**:在cvknode3上运行 `df -h`,重点关注 `/` 根分区和 `/var` 分区的使用率。如果使用率 >90%(尤其是95%以上),需立即清理。
* **清理建议**:删除 `/var/log/` 下的旧日志文件,或清空 `/var/crash/` 核心转储文件。**谨慎操作,必要时可先备份**。
2. **检查Monitor进程**:运行 `systemctl status ceph-mon@<monitor_id>` 或 `ps -ef | grep ceph-mon`,查看进程是否运行。如果未运行,尝试启动:`systemctl start ceph-mon@<monitor_id>`。
3. **检查存储服务状态**:运行 `ceph -s` 或通过CVM存储管理界面查看集群状态。在cvknode3网络恢复后,硬盘异常状态可能需要几分钟才能自动更新。

### 第三阶段:恢复后验证
无论采取哪种恢复措施,成功后请务必验证:
1. **CVM界面**:cvknode3的“计算节点”状态恢复为**正常在线**。
2. **存储界面**:
* “监控节点”中cvknode3的状态恢复为**正常**,且能显示出**存储外网IP**。
* “存储节点”中cvknode3的**硬盘状态陆续恢复为“正常”**(同步可能需要时间)。
* 存储集群的**健康状态**恢复为 `OK` 或 `HEALTH_OK`。

### 总结与操作顺序建议
**请严格按照以下流程操作:**
**1. 诊断**:尝试登录cvknode3 -> 检查网络接口与连通性 -> 检查系统空间。
**2. 处置**:
* 若**无法登录** -> **通过带外管理检查并恢复节点**。
* 若**网络接口异常** -> **修复网络配置或交换机端口**。
* 若**空间满** -> **清理磁盘空间** -> **重启存储监控服务**。
**3. 验证**:在CVM和存储界面确认所有异常状态清除。

**特别注意**:在节点完全恢复在线且网络稳定之前,**请勿在存储界面执行“删除节点”、“重加硬盘”等危险操作**,这可能导致数据丢失。您目前遇到的是一个节点级故障,解决了节点问题,其上的存储服务自然会恢复。


暂无评论

粉丝:16人 关注:1人

根据你描述的“存储集群monitor健康度告警”,尤其是“cvknode3”节点异常的情况,这通常表明集群管理器与cvknode3节点失去了联系。主因可能是系统盘满了、网络断了、monitor进程挂了,或是节点本身出现硬件故障。

在开始操作前,最好先检查一下cvknode3上是否有重要的业务虚拟机在运行,以便评估风险和操作窗口。

我整理了一套由表及里的排查步骤,可以跟着操作看看:


 第一阶段:远程诊断与初步恢复

这个阶段的目标是快速判断故障原因并尝试恢复。

  1.  登录后台,检查集群状态
    使用SSH客户端登录到集群中任何一台正常的主机,运行核心检查命令 ceph -s

    • 目的:这是最关键的一步,它会显示集群是否处于 HEALTH_OK 状态。

    • 观察要点:重点关注输出中的 mon 和 osd 部分,看cvknode3上的服务是否处于 down 状态-2。执行 watch ceph -s 命令可以动态观察状态变化。

  2.  根据 ceph -s 结果,分情况处理
    根据 ceph -s 的输出,故障可能指向不同方向。可以参考这个表格来定位:

    可能原因关键命令行与检查点恢复方案
    Monitor进程异常ceph -s 输出显示 monitor 进程down。查看 /var/log/ceph/ceph-mon.cvknode3.log,看是否有类似 "No space left on device" 的报错。登录cvknode3,执行 systemctl restart ceph-mon.target 重启monitor服务。
    系统盘空间满ceph -s 报错,且检查cvknode3的根分区利用率df -h或inode耗尽情况df -i若inode耗尽,需清理小文件(如/var/spool/postfix/maildrop/下的文件)。若空间满,需清理无用日志或数据。
    网络中断或异常ceph -s 报告节点不可达。尝试从其他节点 ping cvknode3的存储网IP。检查UIS前台“存储外网IP”是否正常显示。若是物理链路问题,检查网线、光模块、交换机端口。若是配置问题,参考恢复。
    硬盘故障ceph -s 报告 osd down。执行 ceph osd tree 查看OSD状态。使用 megacli -PDList -aALL | grep Media 等工具查看硬盘错误计数。若确认物理硬盘存在坏道或故障,需安排换盘操作。


 第二阶段:深入修复与主机操作

如果远程恢复不成功,就需要登录到cvknode3主机上进一步排查了。

  1. 检查并清理系统盘空间
    在cvknode3上执行 df -h 和 df -i 命令,确认系统盘的空间和inode是否耗尽。这是导致monitor服务异常最常见的原因。

    • 常见问题点:H3C官方案例指出,/var/spool/postfix/maildrop/ 目录下可能积存大量小文件,导致inode占满。如果确认是这个原因,可以执行命令清理。

    • 清理建议:清理文件建议使用 echo 命令重定向清空日志,而非直接 rm 删除正在被写入的文件。也可使用平台自带的“存储清理”功能。

  2. 检查网络连通性
    网络不稳定是另一个主要原因。你可以从以下两方面排查:

    • 物理层检查:确认cvknode3的存储网口指示灯状态正常,网线连接牢固。

    • MTU配置检查:在UIS环境中,存储网络与管理网络的MTU值有严格要求(存储前端网络建议9000)。你可以通过 ip addr show 或 ifconfig 检查MTU值,并与正常节点对比。

  3. 手动恢复集群服务
    如果以上问题已解决但服务未自动恢复,可手动操作。

    • 重启monitor进程:在cvknode3上执行 systemctl restart ceph-mon.target 重启进程。若平台版本较旧,也可能是 start ceph-mon-all 命令。

    • 恢复存储服务:若此前关闭了集群的自动平衡功能(noout等标志),解决问题后务必取消,让集群恢复数据均衡。

    • 恢复硬盘状态:如果前台“节点管理”页面显示硬盘全部异常,但后台健康,可以尝试在任意CVM节点执行 supervisorctl restart onestor-peon 命令重启存储管理服务。

  4. 重启故障节点
    如果软件层面的修复无效,作为最后的手段,可以尝试重启cvknode3。

    •  重要提醒:重启前,务必确保集群数据有足够冗余,且业务已迁移。可以参考H3C官方提供的节点重启指导文档进行操作。


 第三阶段:验证恢复结果

  • 前台验证:刷新UIS超融合管理平台页面,观察之前的告警是否消失,存储节点和监控节点状态是否恢复正常。

  • 后台验证:再次执行 ceph -s,确认集群恢复至 HEALTH_OK 状态。

  • 业务验证:确认cvknode3上的虚拟机及其承载的业务是否能够正常访问。

暂无评论

编辑答案

你正在编辑答案

如果你要对问题或其他回答进行点评或询问,请使用评论功能。

分享扩散:

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作

举报

×

侵犯我的权益 >
对根叔社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明