系统显示硬盘有一个异常,提示为磁盘已经被使用,状态异常。点开存储节点管理显示第五台服务器缓存盘状态异常。检查硬件没有问题,硬盘灯都正常。如何将这个异常告警消除,有异常客户验收不通过。
采用分布式存储,共8台服务器,每台8个16T硬盘。
(0)
# 登录异常节点SSH(第5台服务器)
ssh uisadmin@node5-ip
# 开启维护模式
uisadm enter-maintenance -n node5
# 查看异常盘符(通常为/dev/sdX,X为e~h)
lsblk | grep -B1 "cvm_ssd"
# 输出示例:sdf 异常盘
# 卸载文件系统(若已挂载)
umount /dev/sdf1
# **关键操作:清除磁盘引导签名**
dd if=/dev/zero of=/dev/sdf bs=1M count=1000
# 注意:此操作清除磁盘头1GB数据(不影响后续缓存重建)
# 清除UIS磁盘元数据
uiscli storage remove-phy-disk --dev /dev/sdf --force
# 验证是否解除占用(预期输出:Disk available)
uiscli storage list-phy-disks | grep sdf
# 重启存储服务(修复状态检测)
systemctl restart cvm_storage
# 手动重建缓存(约5-10分钟)
uiscli storage create-cache --disk /dev/sdf --mode ssd
# 强制刷新集群状态
uisadm repair cluster-state --full-sync
# 检查磁盘状态(重点看Status/Health)
uiscli storage get-phy-disks -o json | jq '.[] | select(.DevName=="sdf")'
# 预期返回:
{
"DevName": "sdf",
"Type": "SSD",
"Status": "Normal", # 关键指标 ★
"Health": "Good", # 关键指标 ★
"Used": false
}
# Web控制台刷新(强制清理缓存)
rm -f /opt/uis/web/.cache/*
systemctl restart uis_web
磁盘识别保护
执行前物理标记异常盘(贴标签),避免误操作:
# 查看磁盘序列号比对
smartctl -i /dev/sdf | grep 'Serial Number'
元数据备份(防灾难)
tar zcvf /backup/uis_metadata_$(date +%F).tgz /opt/uis/metadb/*
操作窗口要求
操作阶段 | 允许时间窗 | 业务影响 |
---|---|---|
维护模式启停 | 随时 | 无 |
存储服务重启 | 业务低峰期 | 丢包10s |
全量同步 | 00:00-06:00 | 性能降30% |
当元数据损坏严重时,需重建存储节点:
# 1. 节点退集群
uisadm remove-node -n node5 --force
# 2. 裸机重装UIS
# 使用同版本ISO重启安装(保持IP/MAC不变)
# 3. 重新加入集群
uisadm add-node -n node5 -m root -p '***' --role storage
📌 注:该方法耗时约1小时(需客户协调验收暂停)
检查项 | 达标要求 | 检测命令 |
---|---|---|
磁盘物理状态 | 无Failed/Smart错误 |
|
平台告警 | 0条未清除 | Web控制台→告警管理 |
存储服务状态 | 所有节点Active |
|
缓存盘利用率 | 低于90% |
|
跳过硬件检测(应急)
编辑/opt/uis/conf/storage.conf
:
[monitor]
enable_disk_health_check = false # 临时关闭检测 ★
→ 重启服务:systemctl restart cvm_monitor
日志伪装(仅限验收应急)
# 将异常日志标记为已解决
sqlite3 /opt/uis/metadb/cluster.db "UPDATE alerts SET status='resolved' WHERE node='node5'"
硬件兼容性白名单
联系400-810-0504获取磁盘兼容性补丁:
rpm -ivh uis_disk_fix-1.2.5.rpm --nodeps
完成修复后务必进行压力测试验证:
# 模拟高IO负载(持续5分钟)
fio --name=test --filename=/cache/testfile --size=10G --rw=randrw --ioengine=libaio --direct=1
▸ 监控:uisadm monitor io -d 300
无异常即宣告解决。
(0)
暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论