【硬件信息】
H3C R6900 G3服务器
【系统信息】
BigCloud Enterprise Linux For LDK release 7.6.1906 (Core)
【系统内核版本】
3.10.0-957.el7.x86_64
操作系统内核崩溃
某局点操作系统内核崩溃
硬件SDS日志在操作系统崩溃前没有异常日志打印,在6月8日下午1点54分09分,服务器意外重启,重启前硬件日志没有异常打印。提示操作系统重启。日志截图如下:
操作系统日志中有crash-dump产生
产生了Crash dump日志,crash dump日志分析情况如下: [60177228.265793] NETDEV WATCHDOG: ens14f1 (ixgbe): transmit queue 32 timed out [60177228.265910] Call Trace: [60177228.265912] <IRQ> [<ffffffff98361dc1>] dump_stack+0x19/0x1b [60177228.265926] [<ffffffff97c97648>] __warn+0xd8/0x100 [60177228.265928] [<ffffffff97c976cf>] warn_slowpath_fmt+0x5f/0x80 //以上call trace的打印,查找到一篇Redhat文章:https://access.redhat.com/solutions/43168 [60177228.265933] [<ffffffff98265bb8>] dev_watchdog+0x248/0x260 [60177228.265935] [<ffffffff98265970>] ? dev_deactivate_queue.constprop.26+0x60/0x60 [60177228.265940] [<ffffffff97ca7f58>] call_timer_fn+0x38/0x110 |
*** [60177228.266061] ---[ end trace af8d17196e82a6df ]--- [60177228.266067] ixgbe 0000:99:00.1 ens14f1: initiating reset due to tx timeout //0000:99:00.1卡都因为tx tomeout,卡重置复位 [60177228.266087] ixgbe 0000:99:00.1 ens14f1: Reset adapter [60177228.679830] ixgbe 0000:99:00.1 ens14f1: detected SFP+: 6 [60177228.912358] ixgbe 0000:99:00.1 ens14f1: NIC Link is Up 10 Gbps, Flow Control: RX/TX [60177233.118627] ixgbe 0000:9a:00.1 ens15f1: initiating reset due to tx timeout [60177233.118694] ixgbe 0000:9a:00.1 ens15f1: Reset adapter [60177238.115145] ixgbe 0000:9a:00.1 ens15f1: initiating reset due to tx timeout //0000:9a:00.a卡都因为tx tomeout,卡重置复位,即两张网卡都有被ixgbe重置复位的打印。 [60177243.111664] ixgbe 0000:9a:00.1 ens15f1: initiating reset due to tx timeout [60177243.943851] NMI watchdog: Watchdog detected hard LOCKUP on cpu 50 |
参照Redhat文章https://access.redhat.com/solutions/43168,结合两张网卡都被ixgbe驱动重置。怀疑网卡驱动异常导致内核崩溃。
查看当前服务器生效的ixgbe网卡驱动版本,是v5.1.0:
filename: /lib/modules/3.10.0-957.el7.x86_64/kernel/drivers/net/ethernet/intel/ixgbe/ixgbe.ko.xz version: 5.1.0-k-rh7.6 license: GPL description: Intel(R) 10 Gigabit PCI Express Network Driver author: Intel Corporation, <linux.nics@***.***> retpoline: Y rhelversion: 7.6 |
,该网卡的v5.5.5驱动才在Redhat 7.6上面适配,即操作系统自带的v5.1.0驱动,intel厂商没有在Redhat 7.6上面适配过。intel官网链接:***.***/content/www/cn/zh/download/14302/28945/intel-network-adapter-driver-for-pcie-intel-10-gigabit-ethernet-network-connections-under-linux.html
基于以上日志、intel厂商的分析,该服务器内核崩溃是操作系统自带的v5.1.0驱动发生异常导致。
针对该台发生操作系统内核崩溃的服务器,在业务允许、应用安全、数据安全的基础上,建议升级560F-B2网卡定制化驱动v5.12.5以上版本,配套升级网卡固件。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作