### **1. 确认故障原因**
- **主机异常**:检查OSD所在主机是否掉电、关机或业务网络异常。
- 操作路径:UIS管理平台 →【存储】→【存储管理】→【节点管理】→【存储节点】
- 异常表现:主机状态显示"暂无数据"。
- **OSD进程异常**:
```bash
ssh 登录故障节点 # 通过管理网IP登录
ceph osd tree # 查看所有OSD状态
ps -ef | grep ceph-osd # 检查OSD进程是否运行
```
- 若进程未启动,手动拉起:
```bash
systemctl start ceph-osd@
```
- **软连接丢失**:
```bash
lsblk # 定位故障磁盘对应的OSD目录(如ceph-4)
ll /var/lib/ceph/osd/ceph-
```
- 若软连接丢失,修复:
```bash
ceph-disk activate-all # 重建软连接
```
- **硬盘物理故障**:
- 观察服务器硬盘故障指示灯。
- 若确认硬件故障,需更换硬盘(操作前需备份数据并联系技术支持)。
---
### **2. 更换故障硬盘流程**
若确认为硬盘故障,按以下步骤操作:
1. **删除故障盘**:
```bash
ceph osd tree # 确认down状态的OSD ID
ceph osd crush remove osd.
ceph auth del osd.
ceph osd rm osd.
```
2. **物理更换硬盘**:
- 关机更换或开启BIOS热插拔功能(NVMe盘需检查VMD配置开启热插拔)。
3. **新盘加入集群**:
- 前台操作:UIS管理平台 →【硬盘管理】→ 单击【校正磁盘信息】→ 将新盘加入硬盘池。
- 等待数据重构完成(观察集群健康状态恢复)。
---
### **3. 特殊场景处理**
- **缓存盘故障导致数据盘down**:
若为缓存盘(如Scache/Flashcache SSD)故障,需同步更换缓存盘及关联的数据盘,并重建加速分区。
- **更换后其他磁盘异常**:
检查BIOS中VMD配置是否开启热插拔(NVMe盘),未开启可能导致连锁异常。
---
### **4. 注意事项**
- **数据安全**:更换前确保备份关键数据,优先联系400技术支持协助。
- **版本差异**:
- UIS 6.0版本需处理journal加速盘分区;
- UIS 6.5+版本无journal盘,需区分Scache/Flashcache缓存类型。
若上述步骤无法定位问题,请提供:
① `ceph -s`输出;
② 故障节点日志(`/var/log/ceph/`);
③ 硬盘槽位及告警灯状态。
为您推荐相似问题:
UIS硬盘出现故障
如果能明确判断硬盘硬件故障,可以先联系硬件侧安排派单硬盘,硬盘到了后参考H3C UIS超融合一体机部件更换配置指导 更换硬盘章节操作硬盘更换,具体路径:首页>支持>文档与软件>文档中心>H3C UIS超融合一体机部件更换配置指导
https://www.h3c.com/cn/Service/Document_Software/Document_Center/Home/H3Cloud/00-Public/Maintenance/Troubleshooting/H3C_UIS_CG-BJGH-Long/?CHID=882395#_Toc150790496
如果操作有困难,建议联系400协助。
处理步骤
1. 定位故障OSD及磁盘
在任意节点后台执行:
ceph osd tree 确认具体哪些OSD处于down状态
lsblk 查看磁盘与OSD的对应关系
记录异常OSD编号(如osd.XX)及对应的物理磁盘(如/dev/sdX)。
2. 重启异常OSD进程
登录故障OSD所在节点,执行重启命令(以osd.112为例):
systemctl restart ceph-osd@112.service
注意:若多个OSD异常,优先重启公共OSD(通过ceph health detail查看PG关联的公共OSD)。
3. 检查恢复状态
重启后执行:
ceph -s 确认集群健康状态是否恢复为HEALTH_OK
watch ceph -s 持续观察1分钟,确认数据恢复进度
若健康度仍未恢复,检查ceph health detail输出,确认是否有残留异常PG。
4. 处理硬件故障(若存在)
若重启后OSD仍down,或日志提示磁盘错误(如medium error):
更换硬盘:
前台删除故障磁盘(需集群健康度100%时操作)。
按《[H3C UIS超融合一体机部件更换配置指导](https://www.h3c.com/cn/Service/Document_Software/Document_Center/Home/H3Cloud/00-Public/Maintenance/Troubleshooting/H3C_UIS_CG-BJGH-Long/)》更换硬盘并重新加入集群。
紧急处理:
ceph osd crush remove osd.XX 移除故障OSD(谨慎操作,需确认数据已迁移)
ceph auth del osd.XX
ceph osd rm osd.XX
5. 检查网络与节点状态
确认故障节点网络无波动(如接口频繁up/down)。
检查节点根分区空间:
df -h / 若低于70%会触发告警,需清理日志或扩容
6. 联系技术支持
若上述操作后问题未解决,或需换盘协助:
拨打新华三技术服务热线:400-810-0504。
关键注意事项
操作顺序:先重启OSD,无效再排查硬件/换盘。
健康度监控:更换硬盘前确保集群健康度100%,否则需等待数据平衡完成。
日志排查:检查/var/log/messages是否有磁盘I/O错误或RAID卡告警。
以上流程依据知识库中《H3C
UIS超融合管理平台 应急故障恢复指导-5W106》《UIS超融合一体机部件更换配置指导》等文档整理。若现场环境存在差异,请以最新官方文档为准。
暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论