最佳答案
UIS一体机的中CPU、内存等部件不支持热插拔更换,请根据本章节进行更换此类部件。
在更换部件前,请务必执行本章的所有检查项,确认符合前置条件后,再进行操作。检查方法请参考2.2 操作前检查。
若故障节点未因硬件故障导致宕机,则参考本小节操作。
将待关机节点的虚拟机以更改主机方式迁移到其他节点。
(1) 选择顶部“虚拟机”页签,若系统中有多个集群,还需在左侧导航树选择目标集群,进入虚拟机管理页面。
(2) 选择目标虚拟机,在虚拟机卡片上单击<更多>按钮,选择[迁移]菜单项或者进入虚拟机概要信息页面,单击<迁移>按钮,弹出迁移虚拟机对话框。
(3) 根据配置向导完成虚拟机的迁移,迁移类型需选择更改主机。
迁移超时时长建议设置为0,防止虚拟机因迁移超时而暂停。
将故障主机上的所有共享存储池暂停。
(1) 选择顶部“主机”页签,进入主机管理信息页面。若系统中有多个集群,还需在左侧导航树选择目标主机所在的集群,进入主机集群管理页面。
(2) 选择故障主机,进入主机的概要信息页面。选择“存储”页签,进入主机的存储池列表页面。
(3) 在存储池列表中选择类型为的存储池“共享文件系统”的存储池,依次单击对应操作列的图标,将共享存储池暂停。
(1) 开启主机维护模式。选择顶部“主机”页签,选择目标主机,进入主机概要信息页面,单击<进入维护模式>按钮。
(2) 开启存储维护模式。ssh登录集群中任意正常节点的后台,执行ceph osd set noout和ceph osd set noup命令。
(3) 执行完毕后,执行ceph –s命令,检查状态;状态变为Health_WARN,且提示noout,noup flags set,即表示配置完成,如下图所示。
(1) 开启主机维护模式。选择顶部“主机”页签,选择目标主机,进入主机概要信息页面,单击<进入维护模式>按钮,弹出进入维护模式对话框。
(2) 进入维护模式选项,选择“关闭数据平衡”。
此处的主机维护模式已经包含存储的维护模式,无需单独开启存储维护模式。
(1) 停止故障节点osd。
¡ 对于UIS 6.0版本,在故障节点执行stop ceph-osd-all命令。
¡ 对于UIS 6.5及之后版本,在故障节点执行systemctl stop ceph-osd.target命令。
(2) 等待约1分钟,执行ceph osd tree命令,确认只有故障节点的所有osd状态变为down,其他节点的osd状态仍为up。
(3) 执行ceph –s命令,确认pg状态中不存在pg peering、pg stale、pg activating、pg imcomplete,或pg inactive中的任一状态。
pg peering、pg stale、pg activating属于停止OSD后,pg的中间状态,通常在几秒到十几秒之间就会结束,如果等待1分钟左右还未消失,请联系技术支持进行处理。
拔掉故障节点的所有(包括管理网、存储网及业务网等)网线。
注意记住网线、网口的顺序及安装位置,以便部件更换完毕后恢复网络。
UIS 6.0环境,按如下步骤执行。
(1) 为防止更换网卡和主板后mac地址改变,需要备份网卡配置文件/etc/udev/rules.d/70-persistent-net.rules。
(2) 进入/etc/udev/rules.d/目录下,执行cp 70-persistent-net.rules 70-persistent-net.rules.bak命令备份此配置文件。
root@cvm2:~# cd /etc/udev/rules.d/
root@cvm2:/etc/udev/rules.d# cp 70-persistent-net.rules 70-persistent-net.rules.bak
root@cvm2:/etc/udev/rules.d# ll
total 32
drwxr-xr-x 2 root root 4096 May 9 15:17 ./
drwxr-xr-x 3 root root 4096 Apr 30 17:34 ../
-rw-r--r-- 1 root root 541 Apr 30 17:37 70-custom-net.rules
-rw-r--r-- 1 root root 536 Apr 30 17:33 70-persistent-cd.rules
-rw-r--r-- 1 root root 683 May 9 01:46 70-persistent-net.rules
-rw-r--r-- 1 root root 683 May 9 15:35 70-persistent-net.rules.bak
-rw-r--r-- 1 root root 496 Oct 24 2018 71-persistent-fcoe.rules
-rw-r--r-- 1 root root 1157 Apr 6 2012 README
UIS 6.5及之后版本,请按照如下方式备份网卡配置。
(1) 执行ls-l /sys/class/net/命令,记录硬件更换前的网卡情况。
(2) 如下图所示,以更换前网卡有eth0、eth1、eth6、eth7为例。
(1) 执行sync命令,将内存下刷。
(2) 执行hwclock –w命令,将时钟写入BIOS。
(3) 执行shutdown -h now命令,将服务器正常关机。
关机过程中建议关注HDM页面电源状态,避免出现关机命令执行失败或关机命令执行卡住的情况。
(1) 待正常关机后,将故障节点下电,正常更换硬件。
(2) 更换完毕后,将服务器上电开机。检查HDM页面是否有硬件报错,并通过HDM页面登录远程控制台,查看开机自检过程中是否有报错。
(3) 若无报错,可继续进行下一步;若有报错,请排除故障后再继续。
更换主板时请注意以下事项:
· 如果使用E0886(不含)之前的NingOS(欧拉)软件版本,则必须参考进入BIOS并修正服务器时间章节执行相关操作。
· 如果使用E0886及之后版本,建议仍然执行进入BIOS并修正服务器时间操作,以避免时间同步周期过长的问题。
在更换了服务器的主板后,服务器的时间会被重置,此时需要在进入系统前将服务器时间进行修正,否则可能会导致集群内业务异常。
· 如果使用E0886(不含)之前的NingOS(欧拉)软件版本,在更换主板后首次启动服务器时,必须先进入BIOS进行系统时间的修改,确保其与其他主机的时间一致。保存修改后再重启进入系统。否则,可能会导致集群内业务异常。
· 如果使用E0886及之后版本,建议仍然执行上述操作,以避免时间同步周期过长的问题。
首次启动服务器时,请迅速进入BIOS检查并调整时间,以防在尚未进入BIOS时系统已自动启动。不同服务器进入BIOS的方法会有所不同,请确保了解相关操作。本章节已UIS一体机为例。
(1) 启动服务器,在进入BIOS启动界面时,按Del或Esc键。
(2) 选择Main页签,进入Main界面。
(3) 选择System Time,按Enter,系统时间为24小时制,格式为“时:分:秒”。按“→←”键,在时、分、秒之间切换。
在修改BIOS时间时,务必考虑它与系统的时区之间的差异。尽管它们的时区设置可以不一致,但需要考虑这种设置带来的影响。例如,如果BIOS设置为0时区,而系统时区为UTC+8时区,系统时间将会自动在BIOS的时间基础上加8小时。若希望系统时间显示为早上10点,则应将BIOS时间设置为2点(即UTC时间2点),这样加上8小时后,系统时间便会正确显示为10点。
¡ 按“+” 或“↑”:数值加1。
¡ 按“-” 或“↓”:数值减1。
(4) 时间设置完毕后,使用“→←”方向键选择Set按钮,保存设置。
(5) 进入Exit界面,选择Save Changes and Reset选项并按Enter键,保存修改并重启服务器。
BIOS的时间与系统时间的差异小于6S前,禁止链接任何网线。
(1) 系统正常启动后,通过HDM远程控制台登录到操作系统命令行界面,使用date命令查看当前节点时间与集群内其他节点是否一致。如果更换部件后执行过进入BIOS并修正服务器时间操作,通常来说系统启动后无需执行此处的步骤(2),仅确认时间正确即可。
(2) 若不一致,则执行date –s命令手动设置时间,保证与其他节点的时间偏差在7s以内。然后执行hwclock –w命令将时钟同步到硬件。
(3) 执行ifconfig –a命令,查看更换硬件后的物理网卡名称是否改变。
¡ 若网卡名称未改变,则连上管理网网线,然后测试故障节点的管理网能否ping通。若能ping通,则继续下一步。若无法ping通,则排查网口状态及链路。
¡ 若网卡名称改变,需要按照以下方法处理。
(1) 查看/etc/udev/rules.d/70-persistent-net.rules文件,更换网卡后操作系统会自动更新网卡配置文件(70-persistent-net.rules)。如下图所示,系统将新增网卡标记为eth2和eth3,而eth0和eth1是已经被替换掉的旧网卡。
(2) 查看之前备份的/etc/udev/rules.d/70-persistent-net.rules.bak文件。
(3) 找到更换后新网卡与要替换的旧网卡的对应关系。例如,如果要用新网卡eth3替换eth0,用eth2替换eth1,则修改/etc/udev/rules.d/70-persistent-net.rules文件,将eth0对应的ATTR{address}字段替换为eth3的mac地址,将eth1对应的ATTR{address}字段替换为eth2的mac地址。
(4) 确认配置正确后,保存,退出,然后执行reboot重启服务器。重启后,再次检查网卡名称是否恢复到更换之前的名称。
· E0750P06之前的版本不支持在管理平台页面中修改各网络绑定的物理网口。
· 如果使用E0750P06(包含)-E0750P10(不含)版本,可以在管理平台页面中,将主机进入维护模式,然后在页面中修改非管理网绑定的物理网口。
· 如果使用E0750P10及之后版本,主机进入维护模式后,除了非管理网,也可以修改管理网绑定的物理网口。
(1) 更换完硬件后,发现原有的网卡不存在,新增了两个网卡,例如新增了eth8、eth9。
(2) 此时需要将原有的网口和网络的绑定关系重新设置。
¡ 针对单网口情况:
例如由之前的eth0换成eth1。
ovs-vsctl del-port <ovs_name> eth0//删除之前ovs上的端口
ovs-vsctl add-port <ovs_name> eth1//在ovs上新增新的端口
¡ 针对多网口聚合情况。例如更换vswitch0上的聚合口vswitch0_bond,之前的网卡名为eth1+eth2,现在变成eth2+eth3,聚合组模式为静态基本。
ovs-vsctl del-port vswitch0 vswitch0_bond//删除之前ovs上的聚合口
/opt/bin/ovs_bridge.sh mod vswitch0 vswitch0_bond --iface=eth2 --iface=eth3 --lacp=off --bond_mode=balance-slb//将新网卡名加入ovs聚合
(3) 将此前拔掉的网线按原有顺序插好,使用ifup 物理网口名手动启动物理网口,然后执行ip addr命令查看各物理网口状态是否为UP。例如:
ifup ethB03-0//ethB03-0为物理网口名
(4) 检查该节点的存储网和业务网能否与集群中其他节点互相ping通;检查该节点业务网能否ping通客户端。建议持续ping一分钟,若无丢包则为正常。若无法ping通或有丢包,先排除网络故障后再继续下一步。
(1) 关闭存储维护模式。ssh登录集群中任意正常节点的后台,执行ceph osd unset noout和ceph osd unset noup命令。
(2) 执行ceph osd tree命令,查看当前节点的osd状态是否全部变为up状态。
如果发现有osd未恢复为up,在osd未up的节点,执行ceph-disk activate-all命令将osd拉起。然后再次执行ceph osd tree命令,检查osd是否变为up。
(3) 关闭主机维护模式。确认所有osd都恢复为up之后,选择顶部“主机”页签,选择目标主机,进入主机概要信息页面,单击<退出维护模式>按钮。
(1) 关闭主机维护模式。选择顶部“主机”页签,选择目标主机,进入主机概要信息页面,单击<退出维护模式>按钮。
(2) 执行ceph osd tree命令,查看当前节点的osd状态是否全部变为up状态。
如果发现有osd未恢复为up,在osd未up的节点,执行ceph-disk activate-all命令将osd拉起。然后再次执行ceph osd tree命令,检查osd是否变为up。
登录管理界面,持续观察集群健康度,直到集群健康度恢复100%且所有告警消除。
(1) 选择顶部“主机”页签,进入主机管理信息页面。若系统中有多个集群,还需在左侧导航树选择目标主机所在的集群,进入主机集群管理页面。
(2) 选择故障主机,进入主机的概要信息页面。选择“存储”页签,进入主机的存储池列表页面。
(3) 在存储池列表中选择类型为的存储池“共享文件系统”的存储池,依次单击对应操作列的图标,启动存储池。
(4) 将之前迁到其他主机的虚拟机以迁移主机的方式迁移回本主机。
(0)
参考
1、迁移虚拟机到其它cvk【cvm上操作】
2、cvk进入维护模式【cvm上操作】
3、cvk关机更换
4、cvk开机并检查状态
5、cvk退出维护模式【cvm上操作】
(0)
暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论