E52xx和R52xx版本的存储系统缓存盘有3个挂载的OSD,一个为row池的OSD,另外两个OSD为CSD。
(1) SSH登录到故障节点的后台命令行,执行ceph osd tree down,找到状态为down的OSD编号,如下图所示:
其中osd.1是row池的OSD,osd.4和osd.7是CSD,其余的OSD是加速的数据盘。
(2) 进入故障OSD的挂载点cd /var/lib/ceph/osd/ceph-x,记录下该OSD的fsid信息(需要记录所有故障OSD的fsid信息,包括缓存盘的CSD),如下图所示。
请参见拔下故障盘并换上新盘章节操作。
(1) 使用命令ceph osd tree down查看down的数据盘,本例中down的数据盘为osd.9、osd.12、osd.15、osd.18、osd.21。
(2) 取消故障硬盘的挂载,执行mount命令查看该OSD的挂载信息与对应的盘符,如图osd.9对应的盘符为sdac1。
执行umount /var/lib/ceph/osd/ceph-9命令,取消故障硬盘的挂载。
(3) 执行以下命令将osd删除,其中x为osd编号,需要按照实际情况修改,注意不要删错。
ceph osd crush remove osd.x
ceph auth del osd.x
ceph osd rm osd.x
(4) 格式化对应磁盘,执行命令sudo sgdisk -o /dev/sdac1。
格式化完成后此时执行lsblk可以看到sdac下已不存在分区。
(5) 对剩余down掉的OSD执行(2)(3)(4)操作步骤。
(1) 在主handy节点登录数据库,输入命令mariadbsql -ucalamari -p27HbZwr*g calamari进入数据库。如图所示:
(2) 根据记录的OSD的fsid信息筛选出需要删除的OSD,确认是故障的OSD编号。
select * from op_cluster_osd_config where osd_uuid=’9a41a0f9-01db-44e2-bc6d-57393c323be6’;
(3) 执行如下命令在数据库中删除对应的OSD的信息。
delete from op_cluster_osd_config where osd_uuid='9a41a0f9-01db-44e2-bc6d-57393c323be6’;
(4) 请依次执行步骤(2)和步骤(3)将所有故障的OSD删除掉(包括缓存盘的OSD、CSD以及数据盘的OSD)。
暂无评论
H3C UIS超融合环境(特别是您提到的E0721P01版本),绝对不能直接对缓存盘进行拔插更换。这样做可能会导致数据丢失或存储池故障。
数据一致性问题:缓存盘中存储的是热点数据或待回写的数据,直接拔盘会导致这些数据无法写入数据盘,造成数据不一致甚至丢失。
系统识别问题:UIS系统有自己的一套磁盘管理机制,直接拔插后系统可能无法自动识别新盘并重建缓存层,导致更换失败。
分区残留问题:旧缓存盘上的分区信息(如LVM或分区表)残留在系统中,新盘插入后如果不清理分区,会导致系统无法正确初始化
/dev/sda 或 NVMe编号)。dmsetup remove) -> 删除OSD记录(ceph osd crush remove 等命令)。注意:具体的命令行操作(如ceph命令或dmsetup)非常依赖您的UIS具体版本(如UIS 6.5, 7.0, 8.0等)。强烈建议您在进行此步骤时,参考对应版本的《部件更换配置指导》或直接联系H3C 400客服获取针对您版本的“缓存盘移除指令”。
ceph -s)查看状态,确保没有 recovering 或 backfilling 的卡滞任务。暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论