先看看是什么进程消耗了这么多资源,是租户业务需要的资源给开小了还是安装的什么进程占了大量资源
进后台看这个进程名叫KVM_PIT 但是KILL 不掉它
kill不了看看能不能把这个服务重启下,然后找找这个服务配置文件在哪,能不能把资源大小给限制住,如果不行可以搞个定时任务,时不时的给重启下,当然确定这个服务干啥的能直接解决肯定更好
排查建议:
核心问题分析
1. 资源耗尽引发平台卡死
CPU/内存100%:通常由底层资源争抢或僵尸进程导致,需检查:
top或htop查看具体占用资源的进程(特别注意异常Python/Java进程)
/var/log/messages或journalctl中是否有OOM(内存溢出)记录
存储IO延迟(iostat x 1查看%util是否持续100%)
2. 虚拟机无法关闭的报错
"Device or
resource busy" 表明进程被锁死,可能因为:
存储响应超时(如共享存储断连或OCFS2阻塞)
虚拟机进程(kvm)僵死,需强制清理:
查找虚拟机进程ID
virsh list all
强制销毁进程
virsh destroy VM_NAME
3. 存储访问异常
CVK存储信息缓冲:检查存储健康状态:
执行 multipath ll 查看多路径状态
检查 /var/log/ocfs2_ 日志是否有I/O错误
验证存储网络连通性(ping存储IP)
紧急恢复步骤
1. 隔离故障主机
将未受影响的虚拟机迁移出当前主机
重启宿主机释放资源(若HA未触发需手动操作)
2. 关键日志收集
CVM日志:/var/log/tomcat8/cas.log
CVK日志:
虚拟化层:/var/log/libvirt/libvirtd.log
存储:/var/log/syslog或/var/log/messages
进程:/var/log/caslog/
3. 存储专项检查
检查文件系统状态
ocfs2_controld status
检查存储心跳
o2hb listnodes
深度排查方向
1. 资源冲突检测
运行 dmesg T | grep i 'error\|timeout' 检查内核级错误
使用 strace p <PID 分析卡死进程的系统调用
2. 中毒可能性
检查异常定时任务(crontab l)
扫描异常网络连接(netstat antp | grep EST)
重要提示:若存储出现持续超时(如OCFS2日志报"heartbeat timeout"),需立即协调存储团队联合排查,防止数据损坏。
建议优先收集上述日志并重启故障主机以快速恢复业务,如仍无法解决,请拨打 4008100504
提供日志文件以便深度分析。
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
kill不了看看能不能把这个服务重启下,然后找找这个服务配置文件在哪,能不能把资源大小给限制住,如果不行可以搞个定时任务,时不时的给重启下,当然确定这个服务干啥的能直接解决肯定更好