DataEngine E0104版本管理平台出现告警,提示某一节点Datanode服务无法启动,并且再次启动该服务后短暂恢复又停止了。如下图:
Datanode节点是存储具体数据,而我们的大数据平台的HDFS配置默认是允许0个数据盘损坏。
我们实际的大数据环境,hadoop集群的数据盘是由每个硬盘做一个raid0直接挂载在opt/disk0x这样的目录下的,一个硬盘一个目录,因此,在默认的HDFS的配置下,数据盘损坏一个后,就会导致该节点的datanode服务异常,无法启动。因此,我们需要修改该参数或者更换好的硬盘来恢复环境。
修改HDFS的配置下的DataNode failed disk tolerance参数为1,则就允许节点损坏硬盘数为1个,然后重启HDFS相关服务即可恢复。
恢复服务后,尽快更换硬盘,保持所有数据盘的正常使用。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作