问

Onestor-R0328 如何更换读写加速盘

2024-03-21提问

0关注
0收藏，1657浏览

zhiliao_8f7cxH

zhiliao_8f7cxH 零段

粉丝：0人关注：3人

问题描述：

一、背景：

（1）部署方式：CAS+OneStor部署，其中CAS版本为：V5.0 (E0535P12) ，OneStor-R0328

（2）集群为四节点。

二、问题现象

（1）服务器上的加速SSD盘告警。

（2）登录OneStor 后，查看详细信息知：服务器读写加速盘故障。cvk02磁盘状态为0/4。在集群视图里发现cvk02为红盘，未得到网络配置信息。

（2）在主机管理里点击cvk02，告知无法读取磁盘信息。

（3）ssh到cvk02，cvk03等，可以ping通其它设置IP，感觉不是网络问题，因集群一直运行，未进行过变更！

PING 172.17.216.3 (172.17.216.3) 56(84) bytes of data.
64 bytes from 172.17.216.3: icmp_req=1 ttl=64 time=0.031 ms
（4）现在的集群状态已经同步完成

root@cvk02:~# ceph -s
    cluster eb41d8cf-97cc-4420-b5c4-5c5b4e132d9f
     health HEALTH_OK
     monmap e5: 3 mons at {cvk01=172.17.216.2:6789/0,cvk02=172.17.216.3:6789/0,cvk03=172.17.216.4:6789/0}upgrading_flag 0
            election epoch 292, quorum 0,1,2 cvk01,cvk02,cvk03
     osdmap e51044: 16 osds: 12 up, 12 in
      pgmap v163860628: 2048 pgs, 2 pools, 2628 GB data, 670 Kobjects
            7382 GB used, 12713 GB / 20095 GB avail
                2048 active+clean
client io 1755 KB/s rd, 2275 KB/s wr, 444 op/s rd, 63 op/s wr
root@cvk02:~#
其中监控节点为cvk01，cvk02和cvk03。（cvk02的磁盘异常）

（5）查看osd以及读写加速盘情况，cvk02的写缓分区还在，但读缓存分区丢失，osd.2、osd.5、osd.7、osd.10 down状态。

root@cvk02:~# ceph osd stat
     osdmap e51044: 16 osds: 12 up, 12 in
root@cvk02:~# ceph osd tree
ID WEIGHT   TYPE NAME          UP/DOWN REWEIGHT PRIMARY-AFFINITY
-6        0 root maintain
-5 26.23999 root partition1
-7 26.23999     rack rack1
-2 6.56000         host cvk01
0 1.64000             osd.0       up 1.00000          1.00000
3 1.64000             osd.3       up 1.00000          1.00000
9 1.64000             osd.9       up 1.00000          1.00000
6 1.64000             osd.6       up 1.00000          1.00000
-3 6.56000         host cvk02
2 1.64000             osd.2     down        0          1.00000
7 1.64000             osd.7     down        0          1.00000
10 1.64000             osd.10    down        0          1.00000
5 1.64000             osd.5     down        0          1.00000
-4 6.56000         host cvk03
1 1.64000             osd.1       up 1.00000          1.00000
4 1.64000             osd.4       up 1.00000          1.00000
8 1.64000             osd.8       up 1.00000          1.00000
15 1.64000             osd.15      up 1.00000          1.00000
-8 6.56000         host cvk04
12 1.64000             osd.12      up 1.00000          1.00000
13 1.64000             osd.13      up 1.00000          1.00000
14 1.64000             osd.14      up 1.00000          1.00000
11 1.64000             osd.11      up 1.00000          1.00000
-1        0 root default
root@cvk02:~# lsblk
NAME                                       MAJ:MIN RM   SIZE RO TYPE MOUNTPOINT
sdf                                          8:80   0   1.7T 0 disk
└─sdf1                                       8:81   0   1.7T 0 part
sdo                                          8:224 0    14T 0 disk
└─3600507630082018d9800000000000001 (dm-1) 253:1    0    14T 0 mpath /vms/FC_SAN02
sdd                                          8:48   0   1.7T 0 disk
└─sdd1                                       8:49   0   1.7T 0 part
sdm                                          8:192 0   100G 0 disk
└─sdm1                                       8:193 0   100G 0 part
sdu                                         65:64   0     5T 0 disk
└─360000000000000000e000000eb42d8d0 (dm-3) 253:3    0     5T 0 mpath /vms/3FuBen
sdb                                          8:16   0 446.1G 0 disk
├─sdb4                                       8:20   0   100G 0 part     #写缓存盘
├─sdb2                                       8:18   0   100G 0 part
├─sdb5                                       8:21   0   100G 0 part
├─sdb1                                       8:17   0    15M 0 part
└─sdb6                                       8:22   0   100G 0 part
sdk                                          8:160 0     6G 0 disk
sds                                         65:32   0   100G 0 disk
└─sds1                                      65:33   0   100G 0 part
sdi                                          8:128 0     6G 0 disk
sdq                                         65:0    0     6G 0 disk
sdg                                          8:96   0    14T 0 disk
└─3600507630082018d9800000000000000 (dm-0) 253:0    0    14T 0 mpath /vms/FC_SAN01
sde                                          8:64   0   1.7T 0 disk
└─sde1                                       8:65   0   1.7T 0 part             #1.7T的读缓存盘没有了
sdn                                          8:208 0    14T 0 disk
└─3600507630082018d9800000000000000 (dm-0) 253:0    0    14T 0 mpath /vms/FC_SAN01
sdv                                         65:80   0     5T 0 disk
└─360000000000000000e000000eb43d8d0 (dm-2) 253:2    0     5T 0 mpath /vms/2FuBen
sdc                                          8:32   0   1.7T 0 disk
└─sdc1                                       8:33   0   1.7T 0 part
sdl                                          8:176 0   100G 0 disk
└─sdl1                                       8:177 0   100G 0 part
sdt                                         65:48   0   100G 0 disk
└─sdt1                                      65:49   0   100G 0 part
sda                                          8:0    0 446.1G 0 disk
├─sda4                                       8:4    0 28.6G 0 part
├─sda2                                       8:2    0 74.5G 0 part /
├─sda5                                       8:5    0 324.3G 0 part /vms
├─sda3                                       8:3    0 18.6G 0 part /var/log
└─sda1                                       8:1    0    94M 0 part /boot/efi
sdj                                          8:144 0     6G 0 disk
sdr                                         65:16   0     6G 0 disk
sdh                                          8:112 0    14T 0 disk
└─3600507630082018d9800000000000001 (dm-1) 253:1    0    14T 0 mpath /vms/FC_SAN02
sdp                                          8:240 0     6G 0 disk

三、问题诉求

因未操作过这类缓存盘的更换，还需要大神给个指点。是直接换盘，还是需要先清理Onestor信息？多谢多谢。

1 个回答

按时间按赞数

zhiliao_8f7cxH

zhiliao_8f7cxH 知了小白

粉丝：0人关注：3人

本问题已经处理，处理过程如下：

因为服务器使用的是3850X6，与实施的技术文档有差异，无法参考，所以我使用了最激进的方法进行了处理。

（1）在读缓存故障节点剔除下线的OSD。（依据官方文档是不需要的，只需要更换缓存盘后，RAID卡设置好，执行相关替换命令即可，但我们服务器使用的差异性，没有参考执行。）

stop ceph-osd id=<id>

stop osd out osd.<id>

ceph osd crush remove osd.<id>

ceph auth del osd.<id>

ceph osd rm osd.<id>

数据重新平衡后，再执行第（2）步。

（2）从上方信息即知，读缓存盘已经丢失，所以不需要清理相关分区

（3）迁移该节点上的服务器后，更换SSD，设置SSD为RAID0，其它缓存设置与其它节点一致，重启服务器。

（4）在Handy界面上，发现还是异常，其中分区partition1的状态还是红色，告警“少了一个OSD”；主机管理里的cvk02还是无法识别磁盘。

----------------------------------------------------------------------------------------------------------------------------

这时，即然还是原来的状态。为啥呢？哦！想起来了，SSD需要处理一下，于是，执行了如下命令：

echo 0 > /sys/block/sdb/queue/rotational #已经确认过ssd盘的盘符是/dev/sdb 和sdc。

echo 0 > /sys/block/sdc/queue/rotational

执行完成后，再到Handy界面上查看，发现还是原来的故障样子！这是啥问题呢？

既然这样也不行，那么是否可以踢出故障节点，再加回呢。于是执行第（5）步。

---------------------------------------------------------------------------------------------------------------------------

（5）在Handy界面的“主机管理”里，选择cvk02，删除主机！告知先处理高可用，所以到“高可用”菜单->编辑，在界面内删除cvk02的信息。点击确定后，等待界面完成（不要刷新页面）。再回到Handy的“主机管理”里，重新删除cvk02主机，等待界面完成。再次查看分区Partition1，已经由告警状态变成了正常绿了。

------------------------------------------

此时，最怕报错，还好，正常删除。

-----------------------------------------

（6）因为cvk02的网络信息、Key都未动，所以这里不涉及调整。

（7）再次加入cvk02，在Handy界面的“主机管理”->"手动部署"，填写主机IP，分区:partition1，机架：rack1和root密码。（这两项信息，是我们集群的，需要注意相关修改），下一步；

（8）选择一个ssd为写缓存盘，一个读缓存盘，再选择数据盘。点击“确认”（若不执行第（4）节里的rotational，这里看不到加速盘，就没有办法执行了。）

（9）经过焦急的等待后，最终把cvk02主机加回了集群。

（10）再次检测分区partition1，显示正常绿。进入ssh 后台查看，ceph -w，集群告警，但已经同步同步数据。

（11）最后一步，再把高可用里的cvk02加回来，到此完成本次的故障处理！

****************************************

感谢我询问过的大姥！

本次处理只限于本集群，希望能给需求之人一点建议，仅供参考！

暂无评论

编辑答案

分享扩散:

➤

网站相关: 关于我们; 服务条款; 隐私政策; 帮助中心; 经验与权限; 积分规则

联系我们: 联系我们; 建议反馈

常用链接: 标杆的神器下载

关注我们: H3C官网; 新华三服务公众号; 安仔远程运维服务; 新华三商城

内容许可: 除特别说明外，用户内容均可采用知识共享署名-相同方式共享3.0中国大陆许可协议进行许可

本图标版权归新华三集团所有，仅限本社区使用，切勿用做商业目的，违者必究

浙ICP备09064986号-1 浙公网安备 33010802004416号

✖

亲~登录后才可以操作哦!

确定

✖

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

✖

你的邮箱还未认证，请认证邮箱或绑定手机后进行当前操作

✖

侵犯我的权益 >

对根叔社区有害的内容 >

辱骂、歧视、挑衅等（不友善）

侵犯我的权益

泄露了我的隐私 >

侵犯了我企业的权益 >

抄袭了我的内容 >

诽谤我 >

辱骂、歧视、挑衅等（不友善）

骚扰我

泄露了我的隐私

您好，当您发现根叔知了上有泄漏您隐私的内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱，我们会尽快处理。

1. 您认为哪些内容泄露了您的隐私？（请在邮件中列出您举报的内容、链接地址，并给出简短的说明）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）

侵犯了我企业的权益

您好，当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱，我们会在审核后尽快给您答复。

1. 您举报的内容是什么？（请在邮件中列出您举报的内容和链接地址）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）
3. 是哪家企业？（营业执照，单位登记证明等证件）
4. 您与该企业的关系是？（您是企业法人或被授权人，需提供企业委托授权书）

我们认为知名企业应该坦然接受公众讨论，对于答案中不准确的部分，我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

原文链接或出处

诽谤我

您好，当您发现根叔知了上有诽谤您的内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱，我们会尽快处理。

1. 您举报的内容以及侵犯了您什么权益？（请在邮件中列出您举报的内容、链接地址，并给出简短的说明）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）

我们认为知名企业应该坦然接受公众讨论，对于答案中不准确的部分，我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

垃圾广告信息

色情、暴力、血腥等违反法律法规的内容

政治敏感

不规范转载 >

辱骂、歧视、挑衅等（不友善）

骚扰我

诱导投票

不规范转载

举报说明

产品线		搜索取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式	默认策略匹配全词匹配整句

Onestor-R0328 如何更换读写加速盘

问题描述：

编辑答案

提出建议