问

uis超融合管理平台告警

UIS超融合

2026-05-17提问

0关注
0收藏，524浏览

zhiliao_serTeF

zhiliao_serTeF 零段

粉丝：0人关注：0人

问题描述：

名称，存储集群monitor健康度告警描述，存储集群monitor出现故障，故障monitor为cvknode3 告警类型，分布式存储告警告警原因，1.故障监控节点的系统空间利用率过高，2.存储集群网络出现异常，3.monitor进程异常。恢复建议，1.清理系统空间，降低系统分区利用率，2.检测存储集群网络是否正常，3.重启集群monitor进程。我在存储界面的存储节点也看到cvknode3节点有异常，该节点的硬盘状态全部异常。监控节点界面状态也是异常，存储外网IP没有列出来。请问这种情况我应该怎么去排查和解决？

3 个回答

按时间按赞数

Sun

Sun 一段

粉丝：0人关注：0人

根据您提供的详细告警信息（系统空间、网络、进程异常）和界面观察（硬盘全异常、外网IP缺失），这是一个典型的**由底层节点故障（很可能是网络中断或节点失联）引发的连锁反应**。**硬盘全部异常通常是结果而非原因**。请按照以下优先级进行系统性排查：

### 第一阶段：核心问题诊断（聚焦网络与节点状态）

1. **登录CVM管理平台，检查cvknode3主机状态**
* 路径：`资源` -> `虚拟化` -> `计算节点`。
* 确认cvknode3主机本身的**管理状态**（是否在线？）和**业务状态**（是否正常？）。如果该主机已**离线或失联**，那么存储监控服务（monitor）中断、存储网络IP无法显示、以及硬盘异常就都是必然结果。

2. **检查cvknode3节点的网络连通性（最关键步骤）**
* **从CVM或其他正常节点SSH登录cvknode3**。如果**无法登录**，则证明该节点网络或系统已严重故障，需进行带外管理（iLO/iDRAC）检查。
* **如果能登录**，依次执行：
a. **检查存储网络接口**：运行 `ip addr show` 或 `ifconfig`，查看存储集群网络接口（通常名为 `br-storage` 或类似）是否处于 `UP` 状态，是否获得了正确的IP地址（即“存储外网IP”）。如果接口 `DOWN` 或无IP，则是网络配置或交换机端口故障。
b. **测试存储网络连通性**：从cvknode3上 `ping` 其他存储节点的存储IP地址，看是否通。如果不通，问题在交换机或防火墙策略。
c. **检查路由**：运行 `route -n`，查看存储网络的路由是否正确。

### 第二阶段：根据诊断结果采取相应措施

#### **场景A：发现cvknode3主机离线或网络完全不通**
* **根本原因**：节点硬件、系统或底层网络故障。
* **解决步骤**：
1. **通过带外管理口（如H3C的HDM）登录cvknode3服务器**，检查：
* 电源状态、是否有硬件告警（如风扇、电源、内存）。
* 系统是否卡住、宕机或处于救援模式。
2. **检查物理连接**：确认cvknode3的存储网卡物理连线、对应交换机端口状态（是否被禁用或error-disable）。
3. **恢复节点**：根据带外检查结果，可能需要进行**重启主机**。重启后，观察系统能否正常进入，存储网络接口能否恢复。

#### **场景B：cvknode3主机在线，但存储网络接口异常**
* **根本原因**：存储网络配置丢失、驱动问题或交换机端口隔离。
* **解决步骤**：
1. **尝试重启存储网络服务**（在cvknode3上）：
```bash
systemctl restart network # 或 systemctl restart networking
# 或针对特定服务，如
systemctl restart br-storage
```
2. 检查并修复网络配置文件（如 `/etc/sysconfig/network-scripts/ifcfg-br-storage`）。
3. 联系网络管理员，检查连接cvknode3的交换机端口配置（VLAN、STP等）。

#### **场景C：cvknode3主机及网络均正常，但存储服务异常**
* **根本原因**：系统空间满或monitor进程僵死。
* **解决步骤**（按顺序）：
1. **检查系统空间**：在cvknode3上运行 `df -h`，重点关注 `/` 根分区和 `/var` 分区的使用率。如果使用率 >90%（尤其是95%以上），需立即清理。
* **清理建议**：删除 `/var/log/` 下的旧日志文件，或清空 `/var/crash/` 核心转储文件。**谨慎操作，必要时可先备份**。
2. **检查Monitor进程**：运行 `systemctl status ceph-mon@<monitor_id>` 或 `ps -ef | grep ceph-mon`，查看进程是否运行。如果未运行，尝试启动：`systemctl start ceph-mon@<monitor_id>`。
3. **检查存储服务状态**：运行 `ceph -s` 或通过CVM存储管理界面查看集群状态。在cvknode3网络恢复后，硬盘异常状态可能需要几分钟才能自动更新。

### 第三阶段：恢复后验证
无论采取哪种恢复措施，成功后请务必验证：
1. **CVM界面**：cvknode3的“计算节点”状态恢复为**正常在线**。
2. **存储界面**：
* “监控节点”中cvknode3的状态恢复为**正常**，且能显示出**存储外网IP**。
* “存储节点”中cvknode3的**硬盘状态陆续恢复为“正常”**（同步可能需要时间）。
* 存储集群的**健康状态**恢复为 `OK` 或 `HEALTH_OK`。

### 总结与操作顺序建议
**请严格按照以下流程操作：**
**1. 诊断**：尝试登录cvknode3 -> 检查网络接口与连通性 -> 检查系统空间。
**2. 处置**：
* 若**无法登录** -> **通过带外管理检查并恢复节点**。
* 若**网络接口异常** -> **修复网络配置或交换机端口**。
* 若**空间满** -> **清理磁盘空间** -> **重启存储监控服务**。
**3. 验证**：在CVM和存储界面确认所有异常状态清除。

**特别注意**：在节点完全恢复在线且网络稳定之前，**请勿在存储界面执行“删除节点”、“重加硬盘”等危险操作**，这可能导致数据丢失。您目前遇到的是一个节点级故障，解决了节点问题，其上的存储服务自然会恢复。

暂无评论

刘浩存

刘浩存九段

粉丝：26人关注：1人

根据你描述的“存储集群monitor健康度告警”，尤其是“cvknode3”节点异常的情况，这通常表明集群管理器与cvknode3节点失去了联系。主因可能是系统盘满了、网络断了、monitor进程挂了，或是节点本身出现硬件故障。

在开始操作前，最好先检查一下cvknode3上是否有重要的业务虚拟机在运行，以便评估风险和操作窗口。

我整理了一套由表及里的排查步骤，可以跟着操作看看：

第一阶段：远程诊断与初步恢复

这个阶段的目标是快速判断故障原因并尝试恢复。

登录后台，检查集群状态
使用SSH客户端登录到集群中任何一台正常的主机，运行核心检查命令 ceph -s。
- 目的：这是最关键的一步，它会显示集群是否处于 HEALTH_OK 状态。
- 观察要点：重点关注输出中的 mon 和 osd 部分，看cvknode3上的服务是否处于 down 状态-2。执行 watch ceph -s 命令可以动态观察状态变化。

根据 ceph -s 结果，分情况处理
根据 ceph -s 的输出，故障可能指向不同方向。可以参考这个表格来定位：

可能原因	关键命令行与检查点	恢复方案
Monitor进程异常	`ceph -s` 输出显示 monitor 进程down。查看 `/var/log/ceph/ceph-mon.cvknode3.log`，看是否有类似 "No space left on device" 的报错。	登录cvknode3，执行 `systemctl restart ceph-mon.target` 重启monitor服务。
系统盘空间满	`ceph -s` 报错，且检查cvknode3的根分区利用率`df -h`或inode耗尽情况`df -i`	若inode耗尽，需清理小文件（如`/var/spool/postfix/maildrop/`下的文件）。若空间满，需清理无用日志或数据。
网络中断或异常	`ceph -s` 报告节点不可达。尝试从其他节点 `ping` cvknode3的存储网IP。检查UIS前台“存储外网IP”是否正常显示。	若是物理链路问题，检查网线、光模块、交换机端口。若是配置问题，参考恢复。
硬盘故障	`ceph -s` 报告 `osd down`。执行 `ceph osd tree` 查看OSD状态。使用 `megacli -PDList -aALL \| grep Media` 等工具查看硬盘错误计数。	若确认物理硬盘存在坏道或故障，需安排换盘操作。

第二阶段：深入修复与主机操作

如果远程恢复不成功，就需要登录到cvknode3主机上进一步排查了。

检查并清理系统盘空间
在cvknode3上执行 df -h 和 df -i 命令，确认系统盘的空间和inode是否耗尽。这是导致monitor服务异常最常见的原因。
- 常见问题点：H3C官方案例指出，/var/spool/postfix/maildrop/ 目录下可能积存大量小文件，导致inode占满。如果确认是这个原因，可以执行命令清理。
- 清理建议：清理文件建议使用 echo 命令重定向清空日志，而非直接 rm 删除正在被写入的文件。也可使用平台自带的“存储清理”功能。
检查网络连通性
网络不稳定是另一个主要原因。你可以从以下两方面排查：
- 物理层检查：确认cvknode3的存储网口指示灯状态正常，网线连接牢固。
- MTU配置检查：在UIS环境中，存储网络与管理网络的MTU值有严格要求（存储前端网络建议9000）。你可以通过 ip addr show 或 ifconfig 检查MTU值，并与正常节点对比。
手动恢复集群服务
如果以上问题已解决但服务未自动恢复，可手动操作。
- 重启monitor进程：在cvknode3上执行 systemctl restart ceph-mon.target 重启进程。若平台版本较旧，也可能是 start ceph-mon-all 命令。
- 恢复存储服务：若此前关闭了集群的自动平衡功能（noout等标志），解决问题后务必取消，让集群恢复数据均衡。
- 恢复硬盘状态：如果前台“节点管理”页面显示硬盘全部异常，但后台健康，可以尝试在任意CVM节点执行 supervisorctl restart onestor-peon 命令重启存储管理服务。
重启故障节点
如果软件层面的修复无效，作为最后的手段，可以尝试重启cvknode3。
- 重要提醒：重启前，务必确保集群数据有足够冗余，且业务已迁移。可以参考H3C官方提供的节点重启指导文档进行操作。

第三阶段：验证恢复结果

前台验证：刷新UIS超融合管理平台页面，观察之前的告警是否消失，存储节点和监控节点状态是否恢复正常。
后台验证：再次执行 ceph -s，确认集群恢复至 HEALTH_OK 状态。
业务验证：确认cvknode3上的虚拟机及其承载的业务是否能够正常访问。

暂无评论

zhiliao_GeOM0O

zhiliao_GeOM0O 九段

粉丝：23人关注：2人

UIS 超融合存储集群 monitor 告警 + cvknode3 全盘异常完整排查修复
一、告警核心问题汇总
监控节点cvknode3空间满、monitor 进程异常、集群网络异常
cvknode3所有业务硬盘状态全异常
节点无存储外网 IP，集群分片数据读写异常
分布式存储集群健康度下降，存在数据风险
二、紧急操作（优先做，防止数据丢失）
暂停该节点虚拟机业务
迁移 cvknode3 上运行的虚拟机到正常节点，避免虚拟机宕机、IO 报错
禁止强行拔盘、重启整集群，防止副本丢失
三、分步排查解决
第一步：登录 cvknode3 节点系统排查空间爆满
节点本地接键鼠 / HDM 远程控制台，登录root账号
查看磁盘使用率
bash
运行
df -h
重点看：/根分区、/var、/cache、分布式存储日志分区
使用率95% 以上就是空间爆满导致 monitor 进程挂掉
清理无用文件
bash
运行
# 清理系统日志
journalctl --vacuum-size=100M
# 清理CAS运行日志
rm -rf /var/log/cas/*
# 清理分布式存储冗余日志、core崩溃文件
find / -name "*.core" -delete
# 清空临时文件
rm -rf /tmp/*
清理完再次df -h确认使用率降到 80% 以内
第二步：排查存储外网 IP 缺失 & 集群网络异常
查看节点网卡与存储业务网
bash
运行
ip a
UIS 分布式存储分两张网
管理网：CVM 平台登录管理
存储外网：节点之间数据同步、副本同步（告警里缺失的就是这个）
排查原因
存储网网线松动、光模块损坏、交换机端口 down
节点存储网卡 bond 异常、IP 配置丢失
交换机 VLAN 划分错误，存储网不通
修复
插紧存储网线路，核对节点存储业务 IP，同集群所有节点存储网互通，交换机放行存储网段
第三步：修复 monitor 异常进程
查看集群监控进程状态
bash
运行
ps -ef | grep monitor
停止异常进程重启
bash
运行
# 停止分布式存储监控服务
service cvk-monitor stop
# 清理残留进程
killall cvk-monitor
# 重启服务
service cvk-monitor start
# 设置开机自启
chkconfig cvk-monitor on
查看进程是否正常拉起
bash
运行
service cvk-monitor status
显示 running 即为正常
第四步：解决 cvknode3 全部硬盘状态异常（核心难点）
现象原因
存储网络不通，集群无法识别本地硬盘盘符
节点存储磁盘阵列驱动异常
硬盘物理故障、RAID 卡报错
分布式存储磁盘角色配置丢失
排查流程
硬件层面
进服务器 BIOS/HDM 查看硬盘状态，确认硬盘无物理告警、无坏盘、无离线
系统识别磁盘
bash
运行
lsblk
fdisk -l
查看系统能否识别到所有数据盘，识别不到就是硬件 / RAID 卡问题3. CVM 平台重置磁盘状态
进入【存储】-【存储节点】选中 cvknode3
先下线异常节点
刷新磁盘列表，重新扫描磁盘
磁盘识别正常后，重新加入存储池
磁盘依旧全异常处理
检查服务器 RAID 卡固件、UIS 节点系统版本是否兼容
更换存储硬盘数据线 / 背板
单块硬盘故障会连带节点磁盘状态批量报错，定位坏盘替换
第五步：集群状态恢复校验
CVM 平台查看
存储集群健康度恢复正常
monitor 监控节点全部在线无告警
cvknode3 硬盘状态全部正常
存储外网 IP 正常显示
集群数据同步校验
查看分布式存储副本同步进度，等待数据副本恢复完整
四、最终恢复顺序（标准流程）
清理 cvknode3 系统空间 → 解决空间过高
打通修复集群存储网络 → 恢复存储外网通信
重启 monitor 监控进程 → 消除监控进程告警
排查服务器硬盘硬件 / RAID → 恢复磁盘识别状态
节点重新上线，等待集群数据自愈同步
回迁虚拟机，恢复业务
五、预防后续复发
定期清理 UIS 节点系统日志，避免分区占满
存储网络做链路聚合，防止单链路中断
定时查看硬盘健康状态，提前更换预警硬盘
关闭节点无用日志打印，减少磁盘占用

暂无评论

编辑答案

分享扩散:

➤

网站相关: 关于我们; 服务条款; 隐私政策; 帮助中心; 经验与权限; 积分规则

联系我们: 联系我们; 建议反馈

常用链接: 标杆的神器下载

关注我们: H3C官网; 新华三服务公众号; 安仔远程运维服务; 新华三商城

内容许可: 除特别说明外，用户内容均可采用知识共享署名-相同方式共享3.0中国大陆许可协议进行许可

本图标版权归新华三集团所有，仅限本社区使用，切勿用做商业目的，违者必究

浙ICP备09064986号-1 浙公网安备 33010802004416号

✖

亲~登录后才可以操作哦!

确定

✖

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

✖

你的邮箱还未认证，请认证邮箱或绑定手机后进行当前操作

✖

侵犯我的权益 >

对根叔社区有害的内容 >

辱骂、歧视、挑衅等（不友善）

侵犯我的权益

泄露了我的隐私 >

侵犯了我企业的权益 >

抄袭了我的内容 >

诽谤我 >

辱骂、歧视、挑衅等（不友善）

骚扰我

泄露了我的隐私

您好，当您发现根叔知了上有泄漏您隐私的内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱，我们会尽快处理。

1. 您认为哪些内容泄露了您的隐私？（请在邮件中列出您举报的内容、链接地址，并给出简短的说明）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）

侵犯了我企业的权益

您好，当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱，我们会在审核后尽快给您答复。

1. 您举报的内容是什么？（请在邮件中列出您举报的内容和链接地址）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）
3. 是哪家企业？（营业执照，单位登记证明等证件）
4. 您与该企业的关系是？（您是企业法人或被授权人，需提供企业委托授权书）

我们认为知名企业应该坦然接受公众讨论，对于答案中不准确的部分，我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

原文链接或出处

诽谤我

您好，当您发现根叔知了上有诽谤您的内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱，我们会尽快处理。

1. 您举报的内容以及侵犯了您什么权益？（请在邮件中列出您举报的内容、链接地址，并给出简短的说明）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）

我们认为知名企业应该坦然接受公众讨论，对于答案中不准确的部分，我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

垃圾广告信息

色情、暴力、血腥等违反法律法规的内容

政治敏感

不规范转载 >

辱骂、歧视、挑衅等（不友善）

骚扰我

诱导投票

不规范转载

举报说明

产品线		搜索取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式	默认策略匹配全词匹配整句

uis超融合管理平台告警

问题描述：

第一阶段：远程诊断与初步恢复

第二阶段：深入修复与主机操作

第三阶段：验证恢复结果

编辑答案

提出建议