无
一、现场一台服务器存在时钟源告警
一、进入告警cvk后台,使用命令当前系统正在使用时钟源:cat /sys/devices/system/clocksource/clocksource0/current_clocksource ,发现当前系统确实不是使用TSC时钟。
二、进入该cvk后台,使用命令查看当前系统可用时钟源:cat /sys/devices/system/clocksource/clocksource0/available_clocksource ,发现可用的时钟已经没有TSC了。
三、正常的命令回显应该如下:TSC时钟为保持系统时间的精确性,位于CPU中。
四、现场重启服务器,发现该CVK恢复了TSC时钟,但是过段时间,再次出现TSC消失。
五、通过分析系统日志message或者kernel日志。系统检测到CPU10的TSC时间不精确了,自动切换到acpi_pm模式。 (其他日志段也有CPU 80等核心)
一、协调服务器侧查看硬件CPU是否存在告警,后续确定华为服务器CPU和主板存在问题,进行了更换恢复正常。
二、 后续遇到类似问题,可以后台使用命令dmesg | grep tsc 或者查看message日志搜索关键字tsc。
这个问题不是硬件问题属于内核缺陷:
内核相关的提交,修复tsc时钟切换成hpet造成修通下tsc时钟不可用问题。
***.***/pub/scm/linux/kernel/git/tip/tip.git/commit/?id=b50db7095fe002fa3e16605546cba66bf1b68a3e
***.***/pub/scm/linux/kernel/git/tip/tip.git/commit/?id=c7719e79347803b8e3b6b50da8c6db410a3012b5
***.***/pub/scm/linux/kernel/git/tip/tip.git/commit/?id=c86ff8c55b8ae688
其他的内核:4.14到5.1-rc2 也可能有问题。
***.***/lkml/20190516090651.1396-1-harry.pan@***.***/
Bug 203183 - tsc marked unstable after entered PC10 on Intel CoffeeLake
***.***/show_bug.cgi?id=203183
根据资料和反馈4.14到5.1内核有问题,内核在5.17修复。
内核里面有关于tsc时钟不稳的问题描述:
***.***/pub/scm/linux/kernel/git/tip/tip.git/commit/?id=c86ff8c55b8ae688
主要是时钟判断的阈值有关,有问题的内核判断时间过短50 * NSEC_PER_USEC 导致误认为不准。
临时解决规避办法:内核参数添加 tsc=reliable解决
根本解决办法,更新内核或者backport以上对应的内核commits
(0)
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
backport开头三个commits