一、背景:
(1) 部署方式:CAS+OneStor部署,其中CAS版本为:V5.0 (E0535P12) ,OneStor-R0328
(2)集群为四节点。
二、问题现象
(1)服务器上的加速SSD盘告警。
(2) 登录OneStor 后,查看详细信息知:服务器读写加速盘故障。cvk02磁盘状态为0/4。在集群视图里发现cvk02为红盘,未得到网络配置信息。
(2)在主机管理里 点击cvk02,告知无法读取磁盘信息。
(3)ssh到cvk02,cvk03等,可以ping通其它设置IP,感觉不是网络问题,因集群一直运行,未进行过变更!
PING 172.17.216.3 (172.17.216.3) 56(84) bytes of data.
64 bytes from 172.17.216.3: icmp_req=1 ttl=64 time=0.031 ms
(4)现在的集群状态已经同步完成
root@cvk02:~# ceph -s
cluster eb41d8cf-97cc-4420-b5c4-5c5b4e132d9f
health HEALTH_OK
monmap e5: 3 mons at {cvk01=172.17.216.2:6789/0,cvk02=172.17.216.3:6789/0,cvk03=172.17.216.4:6789/0}upgrading_flag 0
election epoch 292, quorum 0,1,2 cvk01,cvk02,cvk03
osdmap e51044: 16 osds: 12 up, 12 in
pgmap v163860628: 2048 pgs, 2 pools, 2628 GB data, 670 Kobjects
7382 GB used, 12713 GB / 20095 GB avail
2048 active+clean
client io 1755 KB/s rd, 2275 KB/s wr, 444 op/s rd, 63 op/s wr
root@cvk02:~#
其中监控节点为cvk01,cvk02和cvk03。(cvk02的磁盘异常)
(5)查看osd以及读写加速盘情况,cvk02的写缓分区还在,但读缓存分区丢失,osd.2、osd.5、osd.7、osd.10 down状态。
root@cvk02:~# ceph osd stat
osdmap e51044: 16 osds: 12 up, 12 in
root@cvk02:~# ceph osd tree
ID WEIGHT TYPE NAME UP/DOWN REWEIGHT PRIMARY-AFFINITY
-6 0 root maintain
-5 26.23999 root partition1
-7 26.23999 rack rack1
-2 6.56000 host cvk01
0 1.64000 osd.0 up 1.00000 1.00000
3 1.64000 osd.3 up 1.00000 1.00000
9 1.64000 osd.9 up 1.00000 1.00000
6 1.64000 osd.6 up 1.00000 1.00000
-3 6.56000 host cvk02
2 1.64000 osd.2 down 0 1.00000
7 1.64000 osd.7 down 0 1.00000
10 1.64000 osd.10 down 0 1.00000
5 1.64000 osd.5 down 0 1.00000
-4 6.56000 host cvk03
1 1.64000 osd.1 up 1.00000 1.00000
4 1.64000 osd.4 up 1.00000 1.00000
8 1.64000 osd.8 up 1.00000 1.00000
15 1.64000 osd.15 up 1.00000 1.00000
-8 6.56000 host cvk04
12 1.64000 osd.12 up 1.00000 1.00000
13 1.64000 osd.13 up 1.00000 1.00000
14 1.64000 osd.14 up 1.00000 1.00000
11 1.64000 osd.11 up 1.00000 1.00000
-1 0 root default
root@cvk02:~# lsblk
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sdf 8:80 0 1.7T 0 disk
└─sdf1 8:81 0 1.7T 0 part
sdo 8:224 0 14T 0 disk
└─3600507630082018d9800000000000001 (dm-1) 253:1 0 14T 0 mpath /vms/FC_SAN02
sdd 8:48 0 1.7T 0 disk
└─sdd1 8:49 0 1.7T 0 part
sdm 8:192 0 100G 0 disk
└─sdm1 8:193 0 100G 0 part
sdu 65:64 0 5T 0 disk
└─360000000000000000e000000eb42d8d0 (dm-3) 253:3 0 5T 0 mpath /vms/3FuBen
sdb 8:16 0 446.1G 0 disk
├─sdb4 8:20 0 100G 0 part #写缓存盘
├─sdb2 8:18 0 100G 0 part
├─sdb5 8:21 0 100G 0 part
├─sdb1 8:17 0 15M 0 part
└─sdb6 8:22 0 100G 0 part
sdk 8:160 0 6G 0 disk
sds 65:32 0 100G 0 disk
└─sds1 65:33 0 100G 0 part
sdi 8:128 0 6G 0 disk
sdq 65:0 0 6G 0 disk
sdg 8:96 0 14T 0 disk
└─3600507630082018d9800000000000000 (dm-0) 253:0 0 14T 0 mpath /vms/FC_SAN01
sde 8:64 0 1.7T 0 disk
└─sde1 8:65 0 1.7T 0 part #1.7T的读缓存盘没有了
sdn 8:208 0 14T 0 disk
└─3600507630082018d9800000000000000 (dm-0) 253:0 0 14T 0 mpath /vms/FC_SAN01
sdv 65:80 0 5T 0 disk
└─360000000000000000e000000eb43d8d0 (dm-2) 253:2 0 5T 0 mpath /vms/2FuBen
sdc 8:32 0 1.7T 0 disk
└─sdc1 8:33 0 1.7T 0 part
sdl 8:176 0 100G 0 disk
└─sdl1 8:177 0 100G 0 part
sdt 65:48 0 100G 0 disk
└─sdt1 65:49 0 100G 0 part
sda 8:0 0 446.1G 0 disk
├─sda4 8:4 0 28.6G 0 part
├─sda2 8:2 0 74.5G 0 part /
├─sda5 8:5 0 324.3G 0 part /vms
├─sda3 8:3 0 18.6G 0 part /var/log
└─sda1 8:1 0 94M 0 part /boot/efi
sdj 8:144 0 6G 0 disk
sdr 65:16 0 6G 0 disk
sdh 8:112 0 14T 0 disk
└─3600507630082018d9800000000000001 (dm-1) 253:1 0 14T 0 mpath /vms/FC_SAN02
sdp 8:240 0 6G 0 disk
三、问题诉求
因未操作过这类缓存盘的更换,还需要大神给个指点。是直接换盘,还是需要先清理Onestor信息?多谢多谢。
(0)
本问题已经处理,处理过程如下:
因为服务器使用的是3850X6,与实施的技术文档有差异,无法参考,所以我使用了最激进的方法进行了处理。
(1)在读缓存故障节点剔除下线的OSD。(依据官方文档是不需要的,只需要更换缓存盘后,RAID卡设置好,执行相关替换命令即可,但我们服务器使用的差异性,没有参考执行。)
stop ceph-osd id=<id>
stop osd out osd.<id>
ceph osd crush remove osd.<id>
ceph auth del osd.<id>
ceph osd rm osd.<id>
数据重新平衡后,再执行第(2)步。
(2)从上方信息即知,读缓存盘已经丢失,所以不需要清理相关分区
(3)迁移该节点上的服务器后,更换SSD,设置SSD为RAID0,其它缓存设置与其它节点一致,重启服务器。
(4)在Handy界面上,发现还是异常,其中分区partition1的状态还是红色,告警“少了一个OSD”;主机管理里的cvk02还是无法识别磁盘。
----------------------------------------------------------------------------------------------------------------------------
这时,即然还是原来的状态。为啥呢?哦!想起来了,SSD需要处理一下,于是,执行了如下命令:
echo 0 > /sys/block/sdb/queue/rotational #已经确认过ssd盘的盘符是/dev/sdb 和sdc。
echo 0 > /sys/block/sdc/queue/rotational
执行完成后,再到Handy界面上查看,发现还是原来的故障样子!这是啥问题呢?
既然这样也不行,那么是否可以踢出故障节点,再加回呢。于是执行第(5)步。
---------------------------------------------------------------------------------------------------------------------------
(5)在Handy界面的“主机管理”里,选择cvk02,删除主机!告知先处理高可用,所以到“高可用”菜单->编辑,在界面内删除cvk02的信息。点击确定后,等待界面完成(不要刷新页面)。再回到Handy的“主机管理”里,重新删除cvk02主机,等待界面完成。再次查看分区Partition1,已经由告警状态变成了正常绿了。
------------------------------------------
此时,最怕报错,还好,正常删除。
-----------------------------------------
(6)因为cvk02的网络信息、Key都未动,所以这里不涉及调整。
(7)再次加入cvk02,在Handy界面的“主机管理”->"手动部署",填写主机IP,分区:partition1,机架:rack1和root密码。(这两项信息,是我们集群的,需要注意相关修改),下一步;
(8)选择一个ssd为写缓存盘,一个读缓存盘,再选择数据盘。点击“确认”(若不执行第(4)节里的rotational,这里看不到加速盘,就没有办法执行了。)
(9)经过焦急的等待后,最终把cvk02主机加回了集群。
(10)再次检测分区partition1,显示正常绿。进入ssh 后台查看,ceph -w,集群告警,但已经同步同步数据。
(11)最后一步,再把高可用里的cvk02加回来,到此完成本次的故障处理!
****************************************
感谢我询问过的大姥!
本次处理只限于本集群,希望能给需求之人一点建议,仅供参考!
(0)
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论