跳到主要内容
版本:FCP 25.02

平台的关闭与开启步骤

引言

因为各种原因,我们可能需要关闭或重新启动整个平台。本文档提供了详细的关闭和重新启动步骤,以帮助用户顺利完成这些操作。

如果非平台整体关机,影响参见平台和其关联节点重启或关机的影响

集群关闭步骤

准备工作

在关闭集群之前,请确保完成以下准备工作:

  1. 确认任务状态:确保所有正在运行的任务已完成或取消,以防数据丢失或状态不一致。
  2. 完成或取消界面任务:确认所有通过界面下发的任务已经处理完毕或取消。
  3. 检查集群变更:确保没有正在执行的集群变更,以避免状态不一致。
  4. 禁止新任务:确保用户不再创建新的任务或对集群进行变更,以免在关闭过程中引发问题。

关闭集群

由于平台节点之间存在依赖关系,请按以下顺序逐步关闭集群:

  1. 关闭计算节点和提交节点:首先关闭计算节点和提交节点,以避免在后续步骤中出现依赖问题。
  2. 关闭头节点:接着关闭集群的头节点,确保控制节点的安全关闭。
  3. 关闭监控节点(如果有):如果平台包括监控节点,确保在关闭头节点后关闭监控节点。
  4. 关闭管理节点:最后关闭平台的管理节点,完成集群的关闭过程。

最终确认

  • 检查节点状态:确保所有节点均已安全关闭。
  • 记录过程:记录关闭过程及各节点的状态,以便于后续检查和恢复。

集群开启步骤

准备工作

在重新启动平台之前,请完成以下准备工作:

  1. 确认存储系统状态:确保所有外置存储系统(如NFS服务器)已启动并可以访问,以保证平台的正常运行。

启动管理节点

注意:在启动管理节点之前,请确保存储节点已经完全启动。

  1. 启动管理节点

    • 执行以下命令启动管理节点并重新配置服务:
      cd $(dirname $(sudo docker container inspect fastone-api | jq -r '.[0].Config.Labels["com.docker.compose.project.working_dir"]'))
      sudo ymir down
      sudo ymir up
  2. 启动监控节点(如果有)

    • 使用类似命令启动监控节点服务:
      cd $(dirname $(sudo docker container inspect fastone-api | jq -r '.[0].Config.Labels["com.docker.compose.project.working_dir"]'))
      sudo ymir down
      sudo ymir up

启动集群节点

  1. 启动头节点:首先启动集群的头节点。
  2. 启动计算节点:接着启动计算节点。
  3. 启动提交节点:最后启动提交节点。

最终确认

  1. 检查节点状态:确认所有节点均已成功启动,并处于正常状态。
  2. 重新配置集群
    • 从管理平台点击“重新配置”,强制重新下发配置到集群中。
    • 等待集群配置完成,确保集群状态变为“运行中”。

常见问题解答 (FAQ)

平台关闭时任务在执行/排队会有什么影响?

  • 任务停止:关闭平台时,如果任务仍在执行或排队,这些任务将被强制停止,状态会变为“失败”。

平台关闭时集群变更在执行/排队会有什么影响?

  • 变更处理:平台关闭时的集群变更将继续尝试执行,直到变更完成或被标记为失败。如果变更在平台关闭期间失效或不再需要,可以在平台重新启动后在界面上进行调整。

如果重新配置管理节点时存储尚未准备好会有什么影响?

  • 管理平台启动失败:如果存储尚未准备好,管理平台可能无法启动或访问目标目录。请确保存储准备就绪后,再执行重新配置命令。

结尾

  • 重要提醒:请在操作过程中密切关注每一步的状态,确保按照步骤执行,以避免潜在问题。
  • 反馈与支持:如遇到任何问题或需要进一步的帮助,请联系技术支持或查阅相关支持文档。