CloudOS7.0+CF8850H 存储 整机停机 & 上电标准操作流程(机房空调停电维保专用)
关机总原则:云主机→计算节点→管理节点→FC/IB 交换机→CF8850H 存储,逆序开机
一、停机下电步骤(严格从上到下顺序,不可跳步)
步骤 1:业务云主机全部正常关机(CloudOS7.0 WEB 操作)
- 登录 CloudOS 管理后台→【资源→虚拟化→云主机】
- 全选所有运行云主机→安全关闭(优先操作系统软关机,禁止直接断电),逐个核查全部主机状态变为【已关机】
异常僵死虚拟机:确认业务无数据后再执行【关闭电源】强制断电
步骤 2:计算 / 管理 CVM 主机进入维护模式 + 关机
- 【资源→物理主机→物理主机列表】,逐个选中集群主机→进入维护模式(等待集群数据重平衡完成、无告警、磁盘副本全正常)
- 维护模式就绪后,主机页面【更多操作→关闭主机】,等待服务器操作系统正常下电、前面板电源灯橙灯待机;
- 先关所有计算节点,最后关闭 CloudOS 三台管理节点(管理节点留一台临时登录核查,最后下电)
- 全部服务器系统断电后,关闭服务器 PDU 空开 / 拔掉电源线
步骤 3:光纤 / IB 存储交换机下电
- 保存交换机配置:
save force
- 确认存储链路无 IO、无业务报文后,关闭交换机电源开关、切断 PDU 供电
步骤 4:CF8850H 存储集群关机(UniStor CF 系列,WEB 优先软关机,严禁长按硬断电)H3C
- 登录 CF8850H 存储管理 GUI→存储集群→所有存储节点开启维护模式,等待集群 OSD 进程正常下线、无数据重构、无故障告警
- 单节点操作:存储 WEB【电源管理→关机】,等待控制器缓存落盘、系统软关机、电源指示灯橙色待机;
多控集群:逐个节点依次软关机,禁止同时断电双控,关机后等待 3min 缓存完全刷盘
步骤 5:整机房配套设备(防火墙、路由器、接入交换机)
二、上电开机步骤(关机逆序,间隔预留启动等待时间)
- 第一步:机房 PDU 全部合闸上电,先启光纤 / IB 存储交换机,交换机上电等待10min,固件、端口、光模块完全就绪
- 第二步:CF8850H 存储优先上电
- CF8850H 接电,轻按前面板开机键,双控制器尽量 10s 内同步上电;
- 存储整机启动等待15~20min,登录存储 WEB:集群状态正常、所有硬盘在线、无告警、副本完整、无重构任务,存储就绪后再往下操作
存储关机后上电间隔≥60s,避免硬盘未停转损伤盘体
- 第三步:CloudOS 服务器(管理节点优先上电)
① 先上电三台 CloudOS 管理节点服务器,开机等待系统、CVM、云平台服务启动(15min 左右),登录 CloudOS 后台,平台服务全正常无报错;
② 依次分批上电所有计算节点服务器,服务器启动后接入集群,等待主机状态正常、存储挂载正常
- 第四步:CloudOS 后台退出所有主机维护模式
核查集群资源、存储卷、存储链路全部正常,无告警、无数据重构
- 第五步:批量启动云主机
按业务优先级分批开机,优先核心业务虚拟机,启动完成后核验业务访问、存储读写正常
- 最后:启动出口路由、防火墙、接入交换机,全业务上线验收
三、关键注意事项
- CF8850H禁止长按前面板电源硬关机,会丢失控制器缓存、造成文件系统损坏、数据异常;仅 WEB 无法登录时用 HDM 带外关机
- 所有设备软关机后必须等待指示灯待机、内部风扇停转再断总电源
- 中途维保断电间隔>30min 时,上电前设备静置 5min 再合闸
- 开机顺序错(先开主机后开存储)极易出现虚拟机磁盘丢失、存储卷挂载失败
四、异常兜底操作
- CloudOS 平台打不开:登录单台管理节点 SSH,查看
systemctl status cloudos-*相关服务状态
- CF8850H 存储启动异常:单控故障先单独上电正常控制器,排查硬盘与线缆后再启故障控制器
暂无评论