• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

VCFC集群节点重启后虚拟网卡状态DOWN

1天前提问
  • 0关注
  • 0收藏,50浏览
粉丝:0人 关注:0人

问题描述:

VCF C集群节点一,直接重启 重启后虚拟网卡bond0状态DOWN,这个需要怎么解决

3 个回答
粉丝:7人 关注:0人

VCFC集群节点重启后bond0状态为DOWN,通常是由于NetworkManager服务干扰bonding驱动在链路恢复过程中状态卡死导致的。这是一个在Linux bonding驱动中已知的问题,尤其是在NetworkManager管理网络接口的场景下。


 诊断步骤

首先登录节点,执行以下命令确认bond0和各成员口的详细状态:

# 查看bond0整体状态

cat /proc/net/bonding/bond0 # 查看网卡链路状态 ip link show bond0 ip link show ens3f0 # 替换为实际成员口名称 ip link show ens3f1 # 查看NetworkManager是否接管bond0 nmcli device status | grep -E "bond0|ens"关键检查项
  • /proc/net/bonding/bond0中成员口状态是否为down

  • NetworkManager对bond0的控制状态是否为managed


 解决方案(按优先级排序)

方案一:禁用NetworkManager对该bond的控制(推荐)

这是最彻底的解决方案。bond在NetworkManager控制下,当链路短暂中断后可能无法正确恢复,而关闭NetworkManager控制后问题消失。

# 1. 编辑bond0的配置文件
vi /etc/sysconfig/network-scripts/ifcfg-bond0 # 2. 添加或修改以下配置 NM_COnTROLLED=no # 3. 重启网络服务或重启接口 systemctl restart network # 或 ifdown bond0 && ifup bond0方案二:手动恢复bond0状态(临时方案)

如果暂时不方便修改配置,可以通过重启bond接口或重置成员口来恢复:

# 方法1:重启bond接口
ifdown bond0 && ifup bond0 # 方法2:如果bond口有成员口状态异常,尝试重启成员口 ifdown ens3f0 && ifup ens3f0 ifdown ens3f1 && ifup ens3f1 # 方法3:强制重启NetworkManager并重新加载bond systemctl restart NetworkManager方案三:调整bonding驱动参数

如果上述方法无效,可以尝试调整bond的miimondowndelay参数。根据内核开发者分析,downdelay设置可能影响链路故障状态的正确处理:

# 临时修改(立即生效)
echo 100 > /sys/class/net/bond0/bonding/miimon echo 0 > /sys/class/net/bond0/bonding/downdelay echo 200 > /sys/class/net/bond0/bonding/updelay # 永久修改需编辑ifcfg-bond0文件,添加: BONDING_OPTS="mode=1 miimon=100 updelay=200 downdelay=0"方案四:检查VCFC集群特定要求

根据H3C CloudOS部署规范,集群管理网卡的聚合名称必须为bond0,存储网卡为bond1。如果命名不规范会导致部署失败。请确认:

  • 聚合名称确实是bond0(全小写)

  • 各成员口配置正确,且都正确加入到bond0中


 根本原因说明

bond在BOND_LINK_FAIL状态下可能因NetworkManager的干扰而无法正确恢复:

  • 当链路临时中断时,bonding驱动会先进入BOND_LINK_FAIL状态

  • 如果此时NetworkManager干预了接口状态,可能导致驱动在bond_miimon_commit()阶段没有正确处理new_link状态

  • 结果就是链路恢复后bond无法回到BOND_LINK_UP状态


 长期建议

  1. 统一配置管理:VCFC集群节点建议统一将NM_COnTROLLED=no写入所有bond接口配置,避免NetworkManager干扰

  2. 验证配置持久化:修改后重启节点测试,确保配置在重启后依然生效

  3. 监控bond状态:可配置监控脚本定期检查/proc/net/bonding/bond0状态,异常时自动恢复


粉丝:2人 关注:9人

检查物理网卡状态:`display interface brief` 查看bond0成员口(如eth0、eth1)是否UP。若物理口DOWN,检查网线、对端设备。

检查bond配置:`display current-configuration interface bond0` 确认bond模式(如mode 1 active-standby)和成员口正确。

检查VCFC服务:`systemctl status vcf-agent` 或 `service vcf-agent status` 查看服务是否正常启动。若异常,尝试重启服务:`systemctl restart vcf-agent`。

若上述步骤无效,需检查集群状态和节点间网络连通性。

服务器其他成员口是UP的,bond0口是down的,检查提示没有这个服务Unit vcf-agent.service could not be found

云中的枫叶 发表时间:11小时前 更多>>

服务器其他成员口是UP的,bond0口是down的,检查提示没有这个服务Unit vcf-agent.service could not be found

云中的枫叶 发表时间:11小时前
粉丝:6人 关注:2人

VCF C 节点重启后 bond0 DOWN,核心是配置未持久化、模块 / 服务异常、或与交换机 LACP 协商失败,按以下步骤快速恢复。

一、先做快速恢复(临时生效)

  1. 登录故障节点后台,加载 bonding 模块
bash
运行
modprobe bonding lsmod | grep bonding # 确认加载成功
  1. 启动 bond0 与成员网卡
bash
运行
ip link set bond0 up ip link set eth0 up # 替换为实际成员网卡 ip link set eth1 up
  1. 重启网络服务(VCF C 常用 network 而非 NetworkManager)
bash
运行
systemctl restart network systemctl enable network # 确保开机自启
  1. 验证状态
bash
运行
ip link show bond0 # 应显示UP cat /proc/net/bonding/bond0 # 查看成员与模式

二、排查根本原因(避免重启复发)

1. 检查配置文件(最常见)

进入网卡配置目录:
bash
运行
cd /etc/sysconfig/network-scripts/
  • ifcfg-bond0 必须包含:
ini
TYPE=Bond BOOTPROTO=static # 或dhcp OnBOOT=yes BONDING_OPTS="mode=4 miimon=100 lacp_rate=fast" # 按实际模式 IPADDR=xxx.xxx.xxx.xxx NETMASK=255.255.255.0 GATEWAY=xxx.xxx.xxx.xxx
  • 成员网卡(如 ifcfg-eth0/eth1) 必须包含:
ini
TYPE=Ethernet BOOTPROTO=none OnBOOT=yes MASTER=bond0 SLAVE=yes
  • 修复后重启 network:systemctl restart network

2. 检查 bonding 模块开机加载

bash
运行
echo "bonding" > /etc/modules-load.d/bonding.conf

3. 禁用 NetworkManager(避免冲突)

VCF C 集群通常用 network 服务,需关闭 NM:
bash
运行
systemctl stop NetworkManager systemctl disable NetworkManager

4. 检查交换机侧 LACP 配置(mode=4 必查)

  • 交换机端口必须加入LACP 动态聚合组,模式与服务器一致(active/active)
  • 检查端口速率 / 双工一致,无错误包
  • 交换机侧执行:
bash
运行
display link-aggregation verbose # 看LACP状态 display interface brief # 看端口是否UP

5. 查看系统日志定位错误

bash
运行
journalctl -u network -b # 看本次启动网络日志 cat /var/log/messages | grep bond # 搜索bond相关报错

三、VCF C 集群特殊处理

  1. 若 bond0 是集群管理 / 业务口,恢复后检查集群状态:
bash
运行
vcfc node list # 看节点是否正常加入 vcfc cluster status
  1. 若节点仍异常,可重新加入集群(谨慎操作)。

四、常见原因总结

表格
现象原因解决
重启后 bond0 消失 / DOWNOnBOOT=no、模块未加载改 OnBOOT=yes,配置 modules-load
成员口 UP 但 bond0 DOWNLACP 协商失败、模式不匹配核对交换机 LACP 与 bond mode
配置正确仍不生效NetworkManager 干扰禁用 NM,用 network 服务

五、最终验证

bash
运行
ip addr show bond0 # 有IP、UP ping 网关/集群其他节点 # 通 cat /proc/net/bonding/bond0 # 成员均为Selected

看了一下服务器上网口状态,成员口是UP状态,bond0状态是 DOWN的而且手动启动,启动不了,这个是一开始是正常运行,重启后网口起不来

云中的枫叶 发表时间:11小时前 更多>>

看了一下服务器上网口状态,成员口是UP状态,bond0状态是 DOWN的而且手动启动,启动不了,这个是一开始是正常运行,重启后网口起不来

云中的枫叶 发表时间:11小时前

编辑答案

你正在编辑答案

如果你要对问题或其他回答进行点评或询问,请使用评论功能。

分享扩散:

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作

举报

×

侵犯我的权益 >
对根叔社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明