VCFC集群节点重启后bond0状态为DOWN,通常是由于NetworkManager服务干扰或bonding驱动在链路恢复过程中状态卡死导致的。这是一个在Linux bonding驱动中已知的问题,尤其是在NetworkManager管理网络接口的场景下。
首先登录节点,执行以下命令确认bond0和各成员口的详细状态:
# 查看bond0整体状态
/proc/net/bonding/bond0中成员口状态是否为down
NetworkManager对bond0的控制状态是否为managed
这是最彻底的解决方案。bond在NetworkManager控制下,当链路短暂中断后可能无法正确恢复,而关闭NetworkManager控制后问题消失。
如果暂时不方便修改配置,可以通过重启bond接口或重置成员口来恢复:
如果上述方法无效,可以尝试调整bond的miimon和downdelay参数。根据内核开发者分析,downdelay设置可能影响链路故障状态的正确处理:
根据H3C CloudOS部署规范,集群管理网卡的聚合名称必须为bond0,存储网卡为bond1。如果命名不规范会导致部署失败。请确认:
聚合名称确实是bond0(全小写)
各成员口配置正确,且都正确加入到bond0中
bond在BOND_LINK_FAIL状态下可能因NetworkManager的干扰而无法正确恢复:
当链路临时中断时,bonding驱动会先进入BOND_LINK_FAIL状态
如果此时NetworkManager干预了接口状态,可能导致驱动在bond_miimon_commit()阶段没有正确处理new_link状态
结果就是链路恢复后bond无法回到BOND_LINK_UP状态
统一配置管理:VCFC集群节点建议统一将NM_COnTROLLED=no写入所有bond接口配置,避免NetworkManager干扰
验证配置持久化:修改后重启节点测试,确保配置在重启后依然生效
监控bond状态:可配置监控脚本定期检查/proc/net/bonding/bond0状态,异常时自动恢复
服务器其他成员口是UP的,bond0口是down的,检查提示没有这个服务Unit vcf-agent.service could not be found
服务器其他成员口是UP的,bond0口是down的,检查提示没有这个服务Unit vcf-agent.service could not be found
modprobe bonding
lsmod | grep bonding # 确认加载成功
ip link set bond0 up
ip link set eth0 up # 替换为实际成员网卡
ip link set eth1 up
systemctl restart network
systemctl enable network # 确保开机自启
ip link show bond0 # 应显示UP
cat /proc/net/bonding/bond0 # 查看成员与模式
cd /etc/sysconfig/network-scripts/
TYPE=Bond
BOOTPROTO=static # 或dhcp
OnBOOT=yes
BONDING_OPTS="mode=4 miimon=100 lacp_rate=fast" # 按实际模式
IPADDR=xxx.xxx.xxx.xxx
NETMASK=255.255.255.0
GATEWAY=xxx.xxx.xxx.xxx
TYPE=Ethernet
BOOTPROTO=none
OnBOOT=yes
MASTER=bond0
SLAVE=yes
systemctl restart networkecho "bonding" > /etc/modules-load.d/bonding.conf
systemctl stop NetworkManager
systemctl disable NetworkManager
display link-aggregation verbose # 看LACP状态
display interface brief # 看端口是否UP
journalctl -u network -b # 看本次启动网络日志
cat /var/log/messages | grep bond # 搜索bond相关报错
vcfc node list # 看节点是否正常加入
vcfc cluster status
| 现象 | 原因 | 解决 |
|---|---|---|
| 重启后 bond0 消失 / DOWN | OnBOOT=no、模块未加载 | 改 OnBOOT=yes,配置 modules-load |
| 成员口 UP 但 bond0 DOWN | LACP 协商失败、模式不匹配 | 核对交换机 LACP 与 bond mode |
| 配置正确仍不生效 | NetworkManager 干扰 | 禁用 NM,用 network 服务 |
ip addr show bond0 # 有IP、UP
ping 网关/集群其他节点 # 通
cat /proc/net/bonding/bond0 # 成员均为Selected看了一下服务器上网口状态,成员口是UP状态,bond0状态是 DOWN的而且手动启动,启动不了,这个是一开始是正常运行,重启后网口起不来
看了一下服务器上网口状态,成员口是UP状态,bond0状态是 DOWN的而且手动启动,启动不了,这个是一开始是正常运行,重启后网口起不来
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明