终端EIA portal认证,偶发报错向portalserver发送请求超时。
收集AC日志分析,AC给服务器发48号的mac-trigger无感知查询报文,服务器一直没有回复,三次超时导致无感知认证失败,终端重新弹出认证页面。
收集服务器侧portal日志,从前台日志看几次无感知查询都是后台回应查询报文超时了,但是看后台日志报文回应速度很快。
同时由于portalserver没收到portalweb的消息,portalweb提示了超时,导致终端页面报错向portalserver发送请求超时。前后台通信都是通过中间件kafka交互的,因此怀疑是kafka有问题。查看服务器的系统日志,发现kafka一直在重启。
收集kafka-server日志发现,kafka要清理/kafka/kafka-log-data/__consumer_offsets-40/00000000000000000000.log时,报了文件不存在的错误。该问题是kafka的一个已知问题,E0715H03\E0722版本中增加了kafka数据清理的定时任务,该任务设计考虑不周,对不应该清理的kafka数据文件也进行检查,会清理超过7天未更新的文件。因此当定时任务将数据清理以后,kafka自身清理机制恢复以后再去清理时发现文件不存在,就会触发kafka服务重启。
【规避方案】
清任务理脚本位置:/opt/middleware/crontabTask/extra_unified_clean_forUDTP.sh。 vim打开该脚本使用#注释掉脚本最下方关于kafka数据清理的代码,如下图:
E0715H03版本:
注意:所有master节点均需上述该操作
注释kafka定时清理任务后持续观察业务情况以及平台是否有新增kafka重启日志。
【解决方案】
该问题在E0715H04版本解决,可升级版本解决,版本说明书解决问题列表中的问题单描述如下:
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作