问

UIS 3200 数据磁盘后台downl了

UIS超融合

2026-01-18提问

1关注
1收藏，872浏览

zhiliao_kfYy1G

zhiliao_kfYy1G 零段

粉丝：0人关注：10人

问题描述：

4节点，前台web界面显示磁盘异常，从后台看是ceph osd 查看磁盘down 了

组网及组网描述：

4节点，前台web界面显示磁盘异常，从后台看ceph osd 查看磁盘down 了；这种情况如何处理。存储健康降到80% 多

附件下载： 2.JPG

4 个回答

按时间按赞数

知不了一点

知不了一点二段

粉丝：1人关注：0人

### **1. 确认故障原因**
- **主机异常**：检查OSD所在主机是否掉电、关机或业务网络异常。
- 操作路径：UIS管理平台 →【存储】→【存储管理】→【节点管理】→【存储节点】
- 异常表现：主机状态显示"暂无数据"。
- **OSD进程异常**：
```bash
ssh 登录故障节点 # 通过管理网IP登录
ceph osd tree # 查看所有OSD状态
ps -ef | grep ceph-osd # 检查OSD进程是否运行
```
- 若进程未启动，手动拉起：
```bash
systemctl start ceph-osd@.service # 替换为实际ID（如systemctl start ceph-osd@12.service）
```
- **软连接丢失**：
```bash
lsblk # 定位故障磁盘对应的OSD目录（如ceph-4）
ll /var/lib/ceph/osd/ceph- # 检查journal软连接是否存在
```
- 若软连接丢失，修复：
```bash
ceph-disk activate-all # 重建软连接
```
- **硬盘物理故障**：
- 观察服务器硬盘故障指示灯。
- 若确认硬件故障，需更换硬盘（操作前需备份数据并联系技术支持）。

---

### **2. 更换故障硬盘流程**
若确认为硬盘故障，按以下步骤操作：
1. **删除故障盘**：
```bash
ceph osd tree # 确认down状态的OSD ID
ceph osd crush remove osd. # 移除CRUSH映射
ceph auth del osd. # 删除认证密钥
ceph osd rm osd. # 删除OSD
```
2. **物理更换硬盘**：
- 关机更换或开启BIOS热插拔功能（NVMe盘需检查VMD配置开启热插拔）。
3. **新盘加入集群**：
- 前台操作：UIS管理平台 →【硬盘管理】→ 单击【校正磁盘信息】→ 将新盘加入硬盘池。
- 等待数据重构完成（观察集群健康状态恢复）。

---

### **3. 特殊场景处理**
- **缓存盘故障导致数据盘down**：
若为缓存盘（如Scache/Flashcache SSD）故障，需同步更换缓存盘及关联的数据盘，并重建加速分区。
- **更换后其他磁盘异常**：
检查BIOS中VMD配置是否开启热插拔（NVMe盘），未开启可能导致连锁异常。

---

### **4. 注意事项**
- **数据安全**：更换前确保备份关键数据，优先联系400技术支持协助。
- **版本差异**：
- UIS 6.0版本需处理journal加速盘分区；
- UIS 6.5+版本无journal盘，需区分Scache/Flashcache缓存类型。

若上述步骤无法定位问题，请提供：
① `ceph -s`输出；
② 故障节点日志（`/var/log/ceph/`）；
③ 硬盘槽位及告警灯状态。

为您推荐相似问题：
UIS硬盘出现故障
如果能明确判断硬盘硬件故障，可以先联系硬件侧安排派单硬盘，硬盘到了后参考H3C UIS超融合一体机部件更换配置指导更换硬盘章节操作硬盘更换，具体路径：首页>支持>文档与软件>文档中心>H3C UIS超融合一体机部件更换配置指导
https://www.h3c.com/cn/Service/Document_Software/Document_Center/Home/H3Cloud/00-Public/Maintenance/Troubleshooting/H3C_UIS_CG-BJGH-Long/?CHID=882395#_Toc150790496
如果操作有困难，建议联系400协助。

暂无评论

zhiliao_kfYy1G

zhiliao_kfYy1G 知了小白

粉丝：0人关注：10人

谢谢

暂无评论

zhiliao_sEUyB

zhiliao_sEUyB 九段

粉丝：133人关注：11人

处理步骤
1. 定位故障OSD及磁盘
在任意节点后台执行：
ceph osd tree 确认具体哪些OSD处于down状态
lsblk 查看磁盘与OSD的对应关系
记录异常OSD编号（如osd.XX）及对应的物理磁盘（如/dev/sdX）。
2. 重启异常OSD进程
登录故障OSD所在节点，执行重启命令（以osd.112为例）：
systemctl restart ceph-osd@112.service
注意：若多个OSD异常，优先重启公共OSD（通过ceph health detail查看PG关联的公共OSD）。
3. 检查恢复状态
重启后执行：

ceph -s 确认集群健康状态是否恢复为HEALTH_OK
watch ceph -s 持续观察1分钟，确认数据恢复进度
若健康度仍未恢复，检查ceph health detail输出，确认是否有残留异常PG。
4. 处理硬件故障（若存在）
若重启后OSD仍down，或日志提示磁盘错误（如medium error）：
更换硬盘：
前台删除故障磁盘（需集群健康度100%时操作）。
按《[H3C UIS超融合一体机部件更换配置指导](https://www.h3c.com/cn/Service/Document_Software/Document_Center/Home/H3Cloud/00-Public/Maintenance/Troubleshooting/H3C_UIS_CG-BJGH-Long/)》更换硬盘并重新加入集群。
紧急处理：
ceph osd crush remove osd.XX 移除故障OSD（谨慎操作，需确认数据已迁移）
ceph auth del osd.XX
ceph osd rm osd.XX
5. 检查网络与节点状态
确认故障节点网络无波动（如接口频繁up/down）。
检查节点根分区空间：
df -h / 若低于70%会触发告警，需清理日志或扩容

6. 联系技术支持
若上述操作后问题未解决，或需换盘协助：
拨打新华三技术服务热线：400-810-0504。
关键注意事项
操作顺序：先重启OSD，无效再排查硬件/换盘。
健康度监控：更换硬盘前确保集群健康度100%，否则需等待数据平衡完成。
日志排查：检查/var/log/messages是否有磁盘I/O错误或RAID卡告警。
以上流程依据知识库中《H3C UIS超融合管理平台应急故障恢复指导-5W106》《UIS超融合一体机部件更换配置指导》等文档整理。若现场环境存在差异，请以最新官方文档为准。