平台的关闭与开启步骤
引言
因为各种原因,我们可能需要关闭或重新启动整个平台。本文档提供了详细的关闭和重新启动步骤,以帮助用户顺利完成这些操作。
如果非平台整体关机,影响参见平台和其关联节点重启或关机的影响
集群关闭步骤
准备工作
在关闭集群之前,请确保完成以下准备工作:
- 确认任务状态:确保所有正在运行的任务已完成或取消,以防数据丢失或状态不一致。
- 完成或取消界面任务:确认所有通过界面下发的任务已经处理完毕或取消。
- 检查集群变更:确保没有正在执行的集群变更,以避免状态不一致。
- 禁止新任务:确保用户不再创建新的任务或对集群进行变更,以免在关闭过程中引发问题。
关闭集群
由于平台节点之间存在依赖关系,请按以下顺序逐步关闭集群:
- 关闭计算节点和提交节点:首先关闭计算节点和提交节点,以避免在后续步骤中出现依赖问题。
- 关闭头节点:接着关闭集群的头节点,确保控制节点的安全关闭。
- 关闭监控节点(如果有):如果平台包括监控节点,确保在关闭头节点后关闭监控节点。
- 关闭管理节点:最后关闭平台的管理节点,完成集群的关闭过程。
最终确认
- 检查节点状态:确保所有节点均已安全关闭。
- 记录过程:记录关闭过程及各节点的状态,以便于后续检查和恢复。
集群开启步骤
准备工作
在重新启动平台之前,请完成以下准备工作:
- 确认存储系统状态:确保所有外置存储系统(如NFS服务器)已启动并可以访问,以保证平台的正常运行。
启动管理节点
注意:在启动管理节点之前,请确保存储节点已经完全启动。
-
启动管理节点:
- 执行以下命令启动管理节点并重新配置服务:
cd $(dirname $(sudo docker container inspect fastone-api | jq -r '.[0].Config.Labels["com.docker.compose.project.working_dir"]'))
sudo ymir down
sudo ymir up
- 执行以下命令启动管理节点并重新配置服务: