Print

ADDC方案控制器备份设备配置异常的经验案例

问题描述

控制器备份设备配置异常,存在两种情况:

1.控制器备份设备配置直接报错失败

2.控制器界面备份进程卡在50%,无法进行。

过程分析

控制器通过netconf纳管设备,需要确保设备在线状态是否正常,在线状态正常的情况下,按照如下配置进行检查:

1.检查基础配置,配置备份基于https进行,需要确保设备上相关配置是否正确,设备用户使能了https,配置如下:

 #

local-user admin class manage

 service-type https ssh

#

netconf soap https enable

2.备份失败设备,排查发现为设备配置缺失,补充配置后正常。进程卡在50%的设备配置完整,非配置问题导致备份异常。

3.进一步分析,经确认现场问题为控制器版本已知问题。控制器备份设备过程中,因为设备处理快慢等因素,oam内部执行不同步骤时存在多线程并发更新数据库操作,当前6.0分支访问的是pxc数据库3306端口,此时pxc内部会进行负载均衡,所以更新操作被分配到了不同节点,多节点并发执行触发Pxc数据库分布式事务死锁,更新操作异常回退,备份进度也随之卡住。控制器6114P01及以前版本存在该问题。

解决方法

如果存在设备配置备份失败问题,请检查配置是否完整,补充相关配置即可。

如果存在设备配置备份进度卡在50%,请明确下是否为涉及版本,如涉及,按照如下方案处理。

规避措施:重建oam pod恢复,该步骤不影响业务。如需操作,请400求助二线进行相关步骤核对。

解决方案:控制器6114P01及以后版本解决,升级控制器版本解决。