UIS3030-G3超融合一体机硬盘支持热插拔吗?,系统的SSD坏了一块想更换
(0)
参考:
UIS支持换盘向导功能,硬盘更换时建议优先使用换盘向导功能进行硬盘更换。换盘向导功能支持的软件版本、一体机型号和操作步骤可参考使用换盘向导更换硬盘章节。支持换盘向导时,“节点管理”页面有<更换硬盘>按钮,不支持时,则无该按钮。若当前版本不支持使用换盘向导功能,请根据硬盘类型参考本章节的其他小节进行换盘。其中UIS 6.0及部分UIS 6.5版本的缓存盘的更换方法,请参考缓存加速盘更换-journal加速SSD或缓存加速盘更换-flashcache加速SSD章节,UIS E0716及UIS 7.0版本的缓存盘更换方法,请参考缓存加速盘更换-Scache加速SSD/NVMe章节,UIS 8.0版本的缓存盘更换方法,请参考缓存加速盘更换(UIS 8.0)章节。
· 如果使用UIS 2000 G3系列一体机,硬盘更换的方法请参考《H3C UIS 2000 G3系列超融合一体机操作配置指导》手册中的“UIS2000 G3 故障盘监测及更换”章节。
· 在使用管理平台页面中的“一键换盘”功能时,建议逐个磁盘进行更换,禁止一次性更换所有数据盘。
某些服务器(如R4900,其他支持在线更换硬盘的主机型号请参考兼容性列表)安装了E0716P03及之后版本的UIS软件时支持使用换盘向导更换磁盘,除主机型号外,磁盘需满足下列要求。如果需要更换NVMe缓存盘,需要先正常关机后更换硬盘,再在换盘向导中进行更换操作。
维护对象 | 具体情形 | 插拔要求 | 容量要求 | 接口要求 | 插槽要求 |
SATA或SAS接口的数据盘、缓存盘 | 槽位不变,更换磁盘 | 可带电拔插,对业务无要求 | 新盘容量不小于原盘容量 | 新盘接口类型与原盘保持一致 | 无 |
磁盘和槽位同时更换 | 可带电拔插,对业务无要求 | 新盘容量不小于原盘容量 | 新盘接口类型与原盘保持一致 | 无 |
(2) 确认槽位信息。请根据所用一体机的硬件手册,确认硬盘的槽位信息,使其与界面中显示的位置信息对应。
(3) 选择顶部“存储”页签,选择左侧的节点管理,进入存储节点管理界面。首先选择需要更换硬盘的主机节点,单击<同步磁盘>按钮,避免因为未同步导致的异常。
(4) 同步完成后,界面上显示了故障节点,选择故障节点可以看到该节点下故障的硬盘。故障盘的槽位为5。此时可以手动点亮故障盘的磁盘灯,辅助定位故障磁盘的位置。
(5) 进入机房,拔下槽位5故障盘,插入新盘。然后再次回到软件界面。单击<同步磁盘>按钮和<刷新>按钮,直到识别到新盘,新盘的盘符可能发生变化,但是新盘的槽位号和原故障盘是保持一致的。
如果新盘中存在已有分区,应先清理分区。在系统后台执行后台sgdisk -o /dev/sdd(sdd为坏盘的盘符,需根据实际坏盘的盘符进行调整)命令,清理分区。
(6) 选中计划更换的故障盘,单击<更换磁盘>按钮。
(7) 在跳转界面先选中故障盘。此时盘可能只有一些残留信息了,看不到原来的完整信息,但是只能选择到被单击换盘的数据盘,因此此处就直接选择唯一可选的那块盘。
(8) 然后选择插入的新盘。注意查看新盘的容量,类型信息是否正确,槽位号是否正确。
(9) 选择完成后,单击<下一步>按钮。
(10) 单击<完成>按钮,系统会自动开始换盘任务。
(11) 单击<完成>后,打开任务台查看进度,等待换盘任务完成。
(12) 当换盘任务完成,单击存储节点和磁盘的<刷新>按钮可以看到存储节点和硬盘均显示为正常了。
(1) UIS系统盘通常为RAID 1,在只有一块系统盘故障的情况下,拔下故障盘,插上新盘即可自动开始重建(可通过硬盘灯状态判断,具体参考服务器的用户手册)。若系统盘不为RAID 1,请联系技术支持处理。
(2) 若插上新盘后未自动重建,则需要重启后进入BIOS手动选择重建。针对软RAID,目前所有服务器(支持板载RAID)和软件版本的通用处理方法为:进入BIOS页面,选择板载RAID 1,可以看到其状态是降级,在此页面中选择重构RAID 1,重构时选择新更换的硬盘,最后保存并重启服务器。重启后会自动重构RAID。关机及开机步骤请参照《H3C UIS超融合产品正常开关机配置指导》,在BIOS中选择重建的操作请参考对应机型的BIOS使用手册。
如果是管理节点或仲裁节点故障,请参考《H3C UIS超融合产品双机热备配置指导》中的“双机常用操作”章节进行恢复。如果是其他节点故障,需要先将故障节点在管理平台中移除,重装UIS软件后再将其加回集群机。
这种情况下系统分区中的数据(如/vms分区等)无法恢复。
(1) 将故障主机从管理平台中删除。单击顶部“主机”页签,选择左侧导航树的[主机管理]菜单项,选中对应的主机,进入该主机概要页面。单击<…更多操作>按钮,选择弹出下拉框的“删除主机”选项。
删除主机前请先确认主机中是否存在未被迁移的虚拟机。如有,请先联系技术支持处理遗留虚拟机,再更换硬盘、重装系统。
(2) 更换故障硬盘。如果系统盘已损坏,请更换主机中已损坏的硬盘。如果硬盘未损坏,则无需更换。
(3) 为主机重新安装与集群中其他主机相同版本的UIS软件,具体方法请参考对应版本的《H3C UIS超融合管理平台 安装部署指导》。
(4) 安装完成后可将其加回集群,具体方法请参考《H3C UIS超融合产品扩容与缩容配置指导》中的“集群主机扩容”章节。
系统盘使用M.2 SSD硬盘时,由于这类硬盘内置在服务器中,无法通过常规的点灯识并插拔硬盘的方式进行换盘,需要关机后打开机箱更换硬盘,本章节主要介绍如何区分正常和故障的M.2 SSD硬盘。M.2 SSD系统盘更换的其他事项请参考2.3.2 1. 只有一块系统盘故障及2.3.2 2. 两块系统盘都故障章节。
图5 M.2 SSD硬盘
UIS一体机中通常只有两块M.2 SSD硬盘,分别插在插槽上的两侧。因此需要根据磁盘的S/N 号,确认需要更换的硬盘(故障盘)。本章节提供两种确认方法,如果两种方法均无法确认,请联系技术支持处理。
(2) 查询硬盘S/N号,区分正常硬盘和故障硬盘。
方法一:在UIS主机页面中确认
a. 选择顶部“主机”页签,进入主机管理信息页面。若系统中有多个集群,还需在左侧导航树选择目标主机所在的集群,进入主机集群管理页面。
b. 选择目标主机,进入主机的概要信息页面。选择“硬件监控”页签,进入主机硬件摘要信息页面。
c. 选择[硬盘]菜单项,进入主机硬件监控的硬盘信息页面,查询正常工作的硬盘。
d. 如图所示,M.2 SSD硬盘的“位置”参数显示为“/dev/sd*”,“阵列卡”参数显示为“-”,其中“序列号”参数即为M.2 SSD硬盘的S/N号。如果硬盘故障,通常在此页面无法查看到硬盘信息,可通过该方法区分正常硬盘和故障硬盘。
图6 查看主机硬盘信息
方法二:登录系统后台确认
e. 登录系统后台,通过M.2 SSD硬盘的raid名称查看硬盘信息。例如,raid名称为md126,则执行mdadm –D /dev/md126命令,查看md126中的硬盘信息。如果硬盘信息的“State”处不为“active sync”则说明硬盘处于异常状态。
图7 查看硬盘信息
f. 查看正常硬盘的S/N号。执行smartctl -i /dev/sd*命令查看正常磁盘的S/N 号,sd*即为在上一步中查询到的信息。
图8 查看硬盘S/N号
g. 查询到正常硬盘的S/N号后,即可分辨正常硬盘和故障硬盘。
(3) 关闭一体机电源。
关机及开机步骤请参照《H3C UIS超融合产品正常开关机配置指导》。
(4) 根据查询到的S/N号,更换故障硬盘。
(5) 更换完成后开启主机。
更换硬盘前,需要先删除故障盘。
当故障硬盘的挂载路径丢失的情况下,在前台页面会无法删除,此情况下可以通过后台命令行删除。具体操作方法请根据所用版本参考UIS 6.0后台删除缓存分区方法、UIS 6.5版本后台删除缓存分区方法或UIS 7.0版本(被Scache加速的数据盘)后台删除缓存分区方法章节。
(1) 硬盘故障会,UIS主机硬盘状态会显示为异常。
(2) 在前台页面删除故障硬盘:确保存储的健康度是100%,单击异常硬盘的删除按钮,等待删除过程完成。
每次只能在一个节点操作。删除完一个节点的故障盘后,需等待数据平衡完毕,才能继续删除其他节点的故障盘。考虑到数据平衡需要一定时间,建议在备件到达现场之前提前一天完成此操作。
(1) 通过ssh方法登录到故障节点的后台,执行ceph osd tree命令,找到状态为down的osd编号,如图所示,故障的osd编号为1。
(2) 如果硬盘是带有journal或flashcache加速的数据盘,还需要找到对应的加速分区,待后续删除用。查询硬盘是否有journal或flashcache加速的方法请参考2.1.2 判断硬盘类型。
确认硬盘带有journal加速后,首先需要确定journal SSD上哪个分区是待更换硬盘对应的加速分区。
查询方法一(推荐):
a. 执行cat /var/lib/ceph/osd/ceph-x/journal_uuid命令(x为故障的osd号),找出待删除硬盘缓存分区的uuid。
b. 执行ll /dev/disk/by-partuuid/命令,查看所有磁盘分区对应的uuid。
c. 在步骤b的输出结果中找到和步骤a相同的,该磁盘分区即为需要删除的写缓存分区。例如:下图中,sdf6即为待更换硬盘sdb对应的写缓存分区。
查询方法二:
如果执行cat /var/lib/ceph/osd/ceph-x/journal_uuid命令查找不到,此时可以先对应出此台服务器上的其他活动的数据盘对应的写缓存分区,那么剩下没有对应关系的写缓存分区就是被删除的硬盘对应的写缓存分区了。
如下图所示,对应出osd.5的写缓存分区为sdf3,osd.8的写缓存分区为sdf4,osd.11的写缓存分区为sdf5,那么sdf上还剩下sdf1和sdf6,其中sdf1只有15M,是标识sdf为写缓存SSD的分区,因此sdf6就是被删除的硬盘的写缓存分区。
确认硬盘带有flashcache加速后,需要确定flashcache SSD上哪个分区是待更换硬盘对应的加速分区。
执行lsblk命令查看osd的挂载路径和软连接信息。例如下图中查询的osd.11对应的数据盘为sde,通过uuid比对,与sde下面的uuid相同的flashcache 加速分区为sdf8。
若使用此方法查询不到故障osd对应的uuid,则需要使用排除法,将所有正常的osd对应的flashcache加速分区找出来,那么剩下的加速分区则属于故障osd。
查询完毕之后,执行以下命令移除flashcache软连接。
umount /var/lib/ceph/osd/ceph-x//x为故障osd编号
dmsetup remove /dev/mapper/xxxx-xxxx-xxxx//xxxx-xxxx-xxxx为flashcache加速分区下的一长串uuid
(3) osd可能还有挂载残留,执行umount /var/lib/ceph/osd/ceph-x命令(其中x为osd编号,按照实际情况修改),取消挂载。如果执行此命令后提示“umount: /var/lib/ceph/osd/ceph-x: not mounted”,属于正常情况。
(4) 执行如下命令将osd删除。其中x为osd编号,按照实际情况修改,注意不要删错。
ceph osd crush remove osd.x
ceph auth del osd.x
ceph osd rm osd.x
(5) 将步骤2中查询到的加速SSD分区删除。
使用parted /dev/sdx和rm y命令(sdx为加速SSD的盘符,y为分区号,按实际情况修改),删除上文确认过的故障硬盘对应的读写缓存分区,如需要删除sdo2分区。
(6) 确认分区是否已经删除
(7) 删除完毕后,刷新管理界面查看,确认该故障盘已经消失,并等待集群健康度恢复100%。
(1) 取消故障硬盘的挂载。
a. 通过ssh方法登录到该节点,执行ceph osd tree命令,查看故障的osd(如图中osd 7)。
b. 执行mount命令查看该osd的挂载信息。
c. 执行umount命令,取消被拔硬盘的挂载(图中以osd 7为例)。
(2) 执行如下命令,将故障osd删除,其中x为osd编号,按照实际情况修改,注意不要删错。
ceph osd crush remove osd.x
ceph auth del osd.x
ceph osd rm osd.x
(3) 删除flashcache标识码和缓存盘上的缓存分区
a. 确认被故障盘的flashcahe 标识码。
若系统下已没有了故障盘的盘符,则可以执行lsblk | grep “缓存盘的flashcahce标识码”命令。结果只有1条记录的,则说明该flashcahce标识码为故障硬盘的flashcahce标识码,而唯一被挂载的分区为故障盘对应的读缓存分区。
执行lsblk命令,查看缓存盘下flashcache的标识码。(如下图所示,两个SSD缓存盘sdk、sdj)。
执行lsblk |grep “flashcache标识码”命令,只有一条记录的即为被拔掉硬盘的flashcache分区的标识码,图中e3abd762-ad2e-4221-b6d6-e9a29b6eae82标识码即为故障盘对应的标识码,而对应的sdk2分区为故障盘对应的读缓存分区。
b. 使用命令ls /proc/sys/dev/flashcache命令,查看是否有残留的flashhcahde信息,如果有则删除。否则则跳过下一步。
执行ls /proc/sys/dev/flashcache |grep “flashcache标识码”命令,查找flashcache信息。
c. 执行如下命令,移除该硬盘上的flashcache信息。
[root@node127 ~]# sysctl -w dev.flashcache.f28c1e04-cf71-4853-b628-8017db519b4a+e3abd762-ad2e-4221-b6d6-e9a29b6eae82.fast_remove=1
[root@node127 ~]# dmsetup remove e3abd762-ad2e-4221-b6d6-e9a29b6eae82
d. 执行parted /dev/sdk -s rm 2命令,删除对应缓存盘的分区。
e. 检查缓存盘信息是否被删除干净。
执行lsblk命令,查看对应的缓存盘,(图中sdk的第二个分区已经被删除)
(0)
暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论