# 1. 查看节点状态
showsys -node
# 2. 查看 PD 状态(确认系统盘 failed)
showpd -c -failed
showpd -i | grep -i node2
some LDs cannot be served by remaining nodes → read-only# 查看节点状态
shownode
# Node2 应为:Up/Failed (system disk)
# 确认:Node1 正常、集群正常(2-node cluster degraded)
# 查看是否有正在进行的 servicemag
servicemag status
# 确保无进行中任务
# 方式1:CLI 关机
shutdown node 2
# 等待 2~3 分钟
# 确认 Node2 已关机
shownode
# Node2 State: Down/PoweredOff
# 开机 Node2
start node 2
# 监控节点启动
shownode
# 状态:Starting → Booting → Up (degraded)
# 监控系统盘重建
showpd -i
# 新 SSD 状态:
# degraded → rebuilding → normal
# 1. 检查系统健康
checkhealth -detail
# 应无:read-only、failed system disk
# 2. 确认节点状态
shownode
# Node1/Node2 均:Up (normal)
# 3. 确认 PD 正常
showpd -c -failed
# 无输出
# 4. 若仍只读(极少):手动刷新
setsys readwrite forced
# 确认所有状态正常
showsys
checkhealth -detail
# 查看节点
shownode
showsys -node
# 查看磁盘
showpd -i
showpd -c -failed
# 关机/开机
shutdown node 2
start node 2
# 监控重建
servicemag status
showpd -rebuild
# 健康检查
checkhealth -detail
# 解除只读(如需要)
setsys readwrite forced
shownode / showpd -c -failed 确认 Node2 系统盘 Failedshutdown node 2 安全关机start node 2 → 等待重建 → 自动恢复读写您好老师,目前阵列属于四控制器组合,node2产生控制器内部ssd故障,目前掌握的信息是这个case 不适用于简单更换SSD或者控制器的操作,目前控制器是只读状态并没有挂的,因为有只归属于的该node的 LD在运行的,是否要将这个case需要升级到二线级别 确认更换方案!
你这台CF8400设备正处在一种特殊状态:系统盘(SSD)虽然报“Failed”,但整个节点没有宕机,而是以只读模式在运行。这通常是存储系统为保证数据安全而采取的降级保护措施,现在不建议强制关机。
在动手更换前,请务必完成以下准备:
确认硬件兼容性:准备一块型号和容量都完全匹配的备件盘。可以参考你之前获取硬盘信息的方法,再次核实槽位兼容性。
备份所有关键数据:这是最重要的一步。在开始任何操作前,务必确认所有关键业务数据都已完整备份。
准备好远程连接:确保你能通过SSH或串口(Console)等方式登录到存储系统的管理界面。
备好操作环境:准备好螺丝刀和防静电手环等工具。
登录CF8400存储控制器,执行showsys命令,确认当前操作的设备就是有故障的那台。接着用checkhealth -detail命令全面检查系统健康状况,如果发现其他严重问题,最好先处理完再换盘。
然后,通过showpd命令定位故障盘:
CagePos(即cage:slot格式)位置。比如,0:7就代表0号盘柜的7号槽位。failed 而不是 degraded。如果是 degraded,说明系统可能还在腾空数据,此时强行拔出会有数据丢失的风险。进入维护模式:在更换硬件前,需要让节点进入维护模式。如果是双机热备环境,务必先将该节点切换为备节点。
物理更换硬盘:登录管理平台,进入硬件更换向导(如一键 > 硬件更换)。通过GUI界面让主机进入维护模式,执行shutdown正常关机,然后按提示完成物理更换。
重新加入集群:新盘插入后,系统会自动识别并重建数据。请通过showpd -p或Web界面耐心监控数据重建进度,完成后将节点退出维护模式,重新加入集群。
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
您好老师,目前阵列属于四控制器组合,node2产生控制器内部ssd故障,目前掌握的信息是这个case 不适用于简单更换SSD或者控制器的操作,目前控制器是只读状态并没有挂的,因为有只归属于的该node的 LD在运行的,是否要将这个case需要升级到二线级别 确认更换方案!