• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

CAS cvk节点故障

1天前提问
  • 0关注
  • 0收藏,60浏览
粉丝:1人 关注:0人

问题描述:

CAS平台中,有一台CVK节点故障关机,在这台CVK上的虚拟机没能迁移到其他节点上,这是为啥?怎么才能把节点上的虚机重新迁移到别的节点上?

6 个回答
粉丝:8人 关注:9人

未自动触发HA迁移的常见原因:
1. 集群未开启HA高可用特性,或对应虚机未配置允许高可用的属性;
2. 集群剩余正常CVK节点的CPU、内存资源预留不足,无法承载故障节点上的虚机,HA触发条件不满足;
3. 故障CVK上的虚机磁盘/配置文件存放在本地存储,CAS HA要求虚机必须运行在共享存储上;
4. 集群心跳链路异常,其他正常CVK未及时感知到故障节点失联,未触发故障判定;
5. 虚机配置了硬件直通(网卡/磁盘/PCI设备直通),这类虚机本身不支持HA迁移。
虚机恢复操作步骤:
1. 先确认所有正常CVK节点都能正常访问虚机所在的共享存储,虚机的磁盘、配置文件完整无损坏;
2. 登录CVM管理平台,进入【主机】菜单,选中故障关机的CVK节点,先置为维护模式,执行移除主机操作(不要勾选删除主机上的存储数据);
3. 此时原故障节点上的虚机会显示为失联异常状态,选中目标虚机右键点击「恢复虚拟机」,指定运行的正常CVK节点即可重新拉起虚机;
4. 如果虚机磁盘存放在故障CVK本地,无法通过上述方式恢复,只能等原CVK硬件修复开机后,手动在线迁移虚机到其他正常节点。

暂无评论

粉丝:5人 关注:0人

第一步:情况评估与准备

  1. 登录CIC管理平台:使用管理员账号登录CAS管理界面。
  2. 确认存储类型:找到故障节点上的这些虚拟机,查看其“磁盘信息”。确认磁盘路径是共享存储(如 datastore01/vm01/)还是本地存储(如 host:/local/vm01/)。这决定了后续操作的可行性。
  3. 检查目标节点:确认集群内其他健康的CVK节点有足够的CPU和内存资源来运行这些虚拟机。

第二步:恢复虚拟机(关键步骤)

由于源主机已宕机,虚拟机会显示为 “未知” 或 “主机无响应” 状态。您需要将其“强制”在其他节点上启动。

  1. 右键点击故障的虚拟机,选择 “恢复” 或 “强制运行”(具体菜单名称可能因CAS版本略有不同)。
  2. 在弹出的窗口中:
    • 选择目标主机:手动指定一个健康且资源充足的CVK节点。
    • 启动方式:通常会有一个 “强制恢复” 或 “强制启动” 的选项。这个操作会忽略当前的状态锁,尝试在目标主机上直接启动虚拟机。
    • 存储关联:如果虚拟机磁盘在共享存储上,系统会自动找到磁盘文件。如果是本地存储,此操作将失败,您会看到类似“找不到磁盘文件”的错误。

第三步:针对“本地存储”虚拟机的特殊处理(如果适用)

如果虚拟机磁盘不幸存放在故障节点的本地硬盘上,情况会复杂很多,数据安全风险较高,请谨慎操作:

  1. 首要尝试:恢复原CVK节点。如果只是临时断电或系统问题,优先尝试修复并启动该故障CVK主机。主机恢复在线后,虚拟机状态会自动恢复,然后您再将其通过“动态迁移”功能(需要共享存储)或“虚拟机另存为”导出,迁移到其他节点。这是最安全的数据保全方式。
  2. 无法恢复原主机时的备选方案(高级操作,建议在H3C技术支持指导下进行)
    • 挂载本地磁盘:将故障CVK节点的本地硬盘物理拆卸,挂载到另一台健康的Linux服务器(或临时CVK)上。
    • 提取磁盘文件:找到虚拟机的磁盘文件(通常是 .img 或 .qcow2 格式)和配置文件(XML文件)。
    • 上传至共享存储:将这些文件拷贝到CAS平台的共享存储中。
    • 手工注册虚拟机:在CIC上,通过“创建虚拟机 -> 注册已有虚拟机”的方式,指向共享存储上的磁盘文件和配置文件,将虚拟机重新注册到健康的CVK节点上。

第四步:后续预防措施

  1. 启用并配置HA:确保集群和重要虚拟机都已启用HA功能。
  2. 统一使用共享存储:为所有需要高可用性的虚拟机配置共享存储,避免使用本地存储。
  3. 设置资源预留:为虚拟机设置CPU和内存的资源预留,确保在故障时目标主机有保障的资源可用。
  4. 定期检查:定期检查集群的HA配置、存储连接状态和网络健康状况。

暂无评论

粉丝:16人 关注:1人

虚拟机没能自动迁移,通常和HA(高可用)功能的配置状态以及共享存储的环境有关。

在分析之前,可以先确认一下虚拟机的“生死”状态。节点故障关机,意味着虚拟机经历的是“断电再启动”的过程,其业务会被中断。无法自动迁移的关键点在于:CAS平台的HA机制必须依赖“共享存储”才能生效

  • HA(高可用)功能未启用或配置不足:集群的HA功能可能未开启,或者没有为集群内的主机预留足够的资源(如CPU、内存等),导致迁移失败。另外,如果故障的是CVM管理节点本身,其上的虚拟机也不会触发HA自动迁移。

  • 使用了本地存储这是最常见的原因。如果虚拟机文件存放在故障节点的本地硬盘,其他节点无法访问,HA当然无法生效。此时,虚拟机只能随着节点一起宕机。


解决方案与手动迁移步骤

由于故障节点已经关机,想在其硬件上恢复比较困难。此时,“手动迁移”的思路就变成了:将故障节点上原有的虚拟机数据,在另一台健康节点上重新恢复和启动

成功的关键在于,原虚拟机的磁盘文件是否存放在共享存储上

场景一:使用共享存储(有自动恢复和手动恢复两种方式)

这是最理想的状况,恢复会相对简单。

  • 方案A:重启主机关联自动恢复:如果故障主机的电源、网络等被恢复(哪怕是暂时的),CAS平台在检测到它恢复正常后,可能会尝试将在其他节点上因HA而启动的虚拟机“迁回”,或者至少可以让你重新进行管理操作。

  • 方案B:手动注册恢复虚拟机(推荐):这是最直接的手动恢复方法。

    1. 登录CVM管理平台。

    2. 在导航栏中,找到存储相关的选项。

    3. 浏览共享存储上的数据,找到故障虚拟机的磁盘文件。

    4. 右键点击正确的虚拟机磁盘文件,选择“注册虚拟机”或类似选项。

    5. 在向导中,为目标虚拟机选择一个健康的CVK主机,完成注册。

场景二:使用本地存储(恢复难度较大)

如果你不确定虚拟机文件在哪,或者确认在本地,情况会棘手得多,基本原则是“抢救数据”。

  1. 修复故障节点:首先得尝试修复故障的物理主机,能让它重新通电并接入网络。这是进行后续所有操作的基础。

  2. 导出虚拟机文件:如果故障节点能被部分修复,要立刻通过管理后台或命令行,找到并导出复制故障虚拟机磁盘文件。

  3. 迁移至健康节点:将导出的文件拷贝到一台健康的CVK主机或共享存储上。

  4. 注册并恢复虚拟机:后续操作与共享存储的“手动注册恢复”类似。在CVM上浏览到拷贝来的文件,右键“注册虚拟机”,并在向导中选择健康的CVK主机来运行它。

注意:如果物理主机无法修复,本地存储上的数据将无法访问,虚拟机也会随之彻底丢失。因此,强烈建议重要业务采用共享存储。


如何预防与进一步检查

处理好当前问题后,可以做些检查来防止未来出现类似情况:

  • 检查存储配置:在CVM管理平台,仔细查看故障虚拟机的“概要”或“硬件”信息,确认其“存储”是否指向了一个共享存储。

  • 检查集群HA状态:检查集群的“高可用(HA)”功能是否已正确启用。

  • 定期评估资源:确保集群有充足剩余资源(CPU、内存、存储),避免因资源不足导致HA无法完成。例如,迁移时目标存储池的可用空间必须大于虚拟机卷的容量。

  • 做好备份:定期备份CVM管理平台的配置数据库,这是极端情况下的救命稻草。

暂无评论

粉丝:1人 关注:0人

开启HA,故障会自动迁移,手动迁移可以看集群里哪些cvk使用率低,手动迁移到其它cvk节点

暂无评论

粉丝:1人 关注:0人

CVK如果短期无法恢复,需要去CVM找备份的虚拟机xml文件,然后拷贝xml文件和磁盘文件到正常的cvk上,重新define虚拟机恢复。


暂无评论

粉丝:10人 关注:2人

先把结论说清楚:CVK 故障后虚拟机没自动迁走,绝大多数是没开 HA、用了本地盘、资源不够、心跳异常或硬件直通这五类原因;现在可以通过 CVM 界面 “恢复虚拟机” 快速把虚机拉到其他节点,本地盘场景要先处理数据。

一、为什么没自动迁移(HA 不触发)

  1. 集群 / 虚拟机未开启 HA
    • 集群没开 “高可用 (HA)”,或虚拟机没勾选 “允许高可用”。
  2. 虚拟机用了本地存储(最常见)
    • CAS HA 要求虚拟机必须在共享存储(IP-SAN/FC-SAN/OCFS2);在故障节点本地盘的虚机无法自动迁移
  3. 剩余节点资源不足
    • 其他 CVK 的 CPU / 内存已用超 80%,HA 为保集群稳定不触发迁移。
  4. 集群心跳 / 管理网异常
    • 管理网断包、延迟大,正常节点没判定该 CVK 为 “故障”,不触发 HA。
  5. 虚拟机有硬件直通
    • 网卡、磁盘、GPU 等直通设备的虚机不支持 HA 迁移

二、现在怎么把虚机迁到其他节点(分场景)

场景 A:虚拟机在共享存储(推荐,最快)

  1. 确认所有正常 CVK 能访问共享存储,磁盘文件完好。
  2. 登录CVM→主机,把故障 CVK 设为维护模式移除主机不要勾选 “删除存储数据”)。
  3. 此时虚机显示 “失联 / 异常”,选中虚机→右键恢复虚拟机→指定正常 CVK→确定,虚机会在新节点启动。

场景 B:虚拟机在故障节点本地盘(复杂,先保数据)

  1. 若故障 CVK 能开机:
    • 开机后把虚机手动迁移 / 克隆到共享存储或其他节点本地盘。
  2. 若故障 CVK 无法开机:
    • 拆下故障服务器硬盘,挂载到其他 Linux/CVK 节点,拷贝虚拟机磁盘(.qcow2/.raw)和 XML 配置文件。
    • 在目标 CVK 用virsh define注册、virsh start启动,再在 CVM 纳管。

三、后续预防(避免下次再发生)

  1. 关键虚机务必用共享存储,本地盘只做非重要测试机。
  2. 集群开启HA,关键虚机勾选 “允许高可用”,配置合理资源预留(CPU / 内存不超 80%)。
  3. 确保管理网 / 心跳网独立稳定,多 bond / 多网卡冗余。
  4. 硬件直通的虚机单独规划,不要纳入 HA 集群。

暂无评论

编辑答案

你正在编辑答案

如果你要对问题或其他回答进行点评或询问,请使用评论功能。

分享扩散:

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作

举报

×

侵犯我的权益 >
对根叔社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明