最佳答案
您好,参考安装指导链接,里面也有常见问题
执行相关命令时,若系统提示权限不足,可在命令前追加sudo命令后再次尝试,若依然无法执行,请联系H3C技术支持。
安装失败后,用户可以通过以下方式尝试解决软件安装失败的问题:
· 检查当前操作系统版本是否满足安装要求。
· 检查系统盘剩余空间是否满足安装要求。
· 如果是其他未知原因导致的安装失败,请联系技术支持。
若执行升级准备命令时提示失败或意外中止,请根据提示的失败原因将问题排除后,重新执行升级准备即可。
如图7-1所示,升级预检查会将每个检查项都打印到屏幕,如有检查项失败,会提示失败的节点IP及具体的失败原因,请参考失败原因进行排查处理后重新执行升级预检查即可。
· 若是由于断网、断电导致升级中断,请在网络恢复后继续执行升级。
· 若是非断网、断电原因造成升级失败,会在屏幕上打印具体的原因,并自动回退(根据执行升级启动命令时输入的回滚参数不同相应执行单组件回退或整体回退),如图7-2所示。回退完成后,请根据提示的失败原因进行排查处理,然后再次执行升级启动命令重新进行升级。
回滚失败时,屏幕上会打印具体失败的节点IP及失败原因,请参考提示信息进行排查处理后,继续执行回滚即可。
· 若提示所有节点断网,则可能是由于当前升级主用handy节点自身断网,造成无法与其他集群节点通信,请首先排查当前主用handy节点是否存在网络故障。
· 若提示某一个节点断网,则可能会有以下两种原因:
¡ 该节点断网或断电,请处理。
¡ 该节点网络正常,而是由于升级TCP服务异常导致通信故障,此时请在该节点上使用upgrade service restart命令重启该节点的升级TCP服务。
为防止OSD频繁震荡带来的一系列问题,存储系统对30分钟内允许重启OSD的次数有限制,这种情况下请等待30分钟之后再继续进行升级操作。
(1) 登录失败的节点,执行cat /var/log/upgrade/upgrade_sh.log |grep ERROR命令,查看失败原因并排除问题。
(2) 在handy节点上升级失败提示信息后,输入yes并回车,对失败的节点进行重新尝试,如图7-3所示。
· 等待输入的最长时间为10分钟,若超过10分钟未输入则系统默认按“yes”执行。
· 若在升级前检查阶段(即precheck阶段)和下载升级包阶段(即download阶段)对升级执行失败的节点输入“no”则系统会直接执行集群整体回退;若在停服务(即stop service)开始后对升级执行失败的节点输入“no”则会提示用户是否继续升级。
若节点重试超过5次仍然执行失败,可以先剔除失败的节点继续升级,当升级流程执行成功后,再对剔除的节点执行单节点离线升级。
通过使用分层文件查询命令upgrade offline layer可以查询升级主用handy节点的IP地址,如图7-4所示,master_addr即是当前升级主用handy节点的IP地址,其他为普通节点的IP地址。
图7-4 查询当前主用handy节点IP地址
根据失败的节点是否为主用handy节点,分为以下两种情况进行处理。
情况一:若失败的节点为普通节点(即非主用handy节点),当系统出现提示信息时,输入yes并回车,系统会将该节点剔除,然后继续执行升级。当升级完成后,系统会将升级过程中被剔除的节点信息打印在屏幕上进行提示。
情况二:若失败的节点为当前升级主用handy节点,则需要手动切换升级主用handy节点。
首先确保handy节点满足以下条件:
· 执行升级前集群已完成管理高可用配置,集群中存在可用的备用handy节点(若不满足此项,则当前主用handy节点升级失败时,系统会直接自动回退)。
· 切换主用handy节点前,必须先将原主用handy节点下电或断网,将其完全脱离出集群。在升级完全结束前,严禁将原主用handy节点上电或恢复网络,否则会导致无法预期的严重问题。
切换具体操作步骤如下:
(1) 将原主用handy节点下电或拔出网线,将其完全脱离出集群。
(2) 在集群任意节点上执行upgrade offline layer命令,查询集群分层信息,获取备用handy节点的IP地址(即standby_addr),如图7-5所示。
图7-5 获取备用handy节点IP地址
(3) 登录备用handy节点,执行升级切换命令upgrade offline switchMaster将备用handy节点切换为主用。
切换成功后,请使用新的升级主用handy节点继续升级。
在离线升级流程执行成功后,可对在离线升级过程中剔除的节点(升级失败的普通节点和原主用handy节点均适用)执行单节点离线升级。具体操作步骤如下:
(1) 登录被剔除的节点的操作系统,输入单节点离线升级命令upgrade offline singleupgrade并回车,对该节点执行单节点离线升级。
(2) 升级过程中节点会自动重启,重启完成后再次输入upgrade offline singleupgrade并回车,继续执行升级。
(3) 当出现Result:success提示信息后,表示单节点离线升级成功。
若升级准备失败,屏幕会打印失败原因,请根据失败原因进行排查处理后,重新执行升级准备命令。执行升级准备命令时,请确保系统盘有足够的剩余容量空间,/var分区的剩余空间应大于10GB,且系统盘根目录的已用空间不能超过90%。
未在/var/log/import_pkg目录下放置kernel-*.tar.gz内核包(*为内核版本号)。请首先确认是否要升级内核,若需要升级,则在/var/log/import_pkg目录下放置相应版本的内核压缩包。
升级预检查过程中,若主用handy节点发生重启,重启后会残留一个标记文件,需要手动删除后再重新执行升级准备命令。请在主用handy节点执行echo 0 > /opt/h3c/upd/updflag/nodeFile命令删除残留标记文件。
可能是由于系统CPU使用率、内存使用率过高或网络连接超时等原因导致,建议导出预检查报告来查看失败原因。
升级过程中若节点发生重启或网络故障导致节点网络无法连接,系统会每隔5分钟询问一次是否继续等待,输入yes或不输入,系统会继续等待节点网络恢复,若输入no则该节点升级执行失败,如图7-6所示。请排查相应节点是否掉电、重启或网线脱落。
由于主用handy节点网络恢复后,升级流程实际已发生变化,需要先手动清理残留的标记,否则再次执行升级命令会受到影响。请在主用handy节点上先后执行rm -rf /opt/h3c/upd/updflag/*和touch /opt/h3c/upd/updflag/updcomplete.flag命令。
由于被剔除的节点并未正常完成离线升级,当集群离线升级完成后,被剔除的节点会状态异常,此时建议先对被剔除的节点尝试单节点离线升级(请参见2. 升级过程进行到执行停服务之后,若某个节点持续升级执行失败,应该如何处理?),若升级成功,则可恢复正常。若无法进行单节点离线升级或尝试单节点离线升级失败,则需要进行手动重新加入集群,具体操作步骤如下:
(1) 重新安装被剔除节点的操作系统,重新配置节点的主机名及IP地址,新配置的主机名及IP地址均必须与之前的不同。
(2) 登录handy界面,采用单机部署存储节点功能,使用新配置的主机名及IP地址将节点重新加入集群,如图7-7所示。
(3) 待被剔除节点的数据迁移完成后,将旧主机名及旧IP地址的存储节点删除,如图7-8所示。
这是由于升级存在异常,导致配置项中的配置未能被正常修改而导致的,可按如下方式进行处理:登录管理节点操作系统,执行vim /etc/ceph/ceph.conf,将ceph.conf文件内容中cluster_is_upgrade = True修改为cluster_is_upgrade = False,然后保存修改即可,如图7-9所示。
若节点恰好正在升级内核,此时发生异常重启或掉电后再上电,那么就有极小概率导致系统无法正常启动,此时可按如下方式处理:登录该节点的控制台,对节点执行重启操作,当启动过程进行到选择内核步骤时,选择CentOS Linux (3.10.0-862.el7.x86_64)7 (Core)或CentOS Linux (0-rescue-*)7 (Core)来启动操作系统,如图7-10所示。
节点异常掉电或重启会导致某些文件中的内容被清空,从而命令无法下发,此时可按如下方式处理:登录节点,执行bash /opt/h3c/upd/upgrade/offline/updRollback/upd_end_rollback.sh命令,等待命令执行完毕后,重启节点即可完成回退。
正常情况下,节点回退成功后会自动重启,若没有自动重启,表明有异常情况发生,例如:回退过程中节点长时间掉电或者断网,导致回退失败,从而节点未自动重启。此时集群功能可能会不正常,建议采用如下方法进行处理:
· 排除故障后,再次执行集群整体回退。
· 对回退正常完成的节点手动执行reboot重启,对回退异常的节点手动执行单节点回退。
重新安装或升级存储系统后,需要先清除浏览器缓存再创建集群。
(0)
暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论