跳到主要内容

升级 Fsched

适用范围

本文档适用以下场景, 请按场景执行:

  • 现存集群
  • FCP平台
  • FCC-E (镜像)
危险
  • 如果安装当前集群使用的相同版本的fsched,可能会影响正在运行的job

步骤

现存集群

  1. 复制安装包(fsched-*.tar.gz)到目标机器.

  2. 安装fsched-{BUILDVERSION},命令中{BUILDVERSION}替换为要安装的版本

    sudo tar -xvf fsched-{BUILDVERSION}.tar.gz -C /opt
    sudo /opt/fsched-{BUILDVERSION}/install.sh -t /usr/bin [-r]

    -r: 可选参数,尝试自动重启服务。在版本fsched-10.61及以后的版本生效。

    安装成功时, 安装脚本最后输出为:

    Successfully installed fsched from ...

    如果不是, 则安装失败. 请检查失败步骤, 纠正后重复执行安装脚本.

  3. 如果步骤2没有自动重启服务,需要手动重启对应服务

    1. 头节点重启slurmctld和fs-statesvc
    2. 计算节点重启slurmd
  4. 如果是HA配置, 先升级从节点, 再升级主节点.

FCP 平台

  1. 对于FCP平台, 按照 现存集群 步骤升级已经存在的集群.
  2. 复制安装包(fsched-*.tar.gz), 覆盖 /opt/components/fsched.tar.gz, 该步骤保证后续新添加的节点获得新fsched组件.

镜像(只适用于FCC-E)

  1. 从console上创建一个虚机.
  2. 复制fsched-*.tar.gz到虚机.
  3. 按照安装步骤安装.
  4. 制作镜像, 并根据镜像更新步骤注册到API.

其他注意事项

  • fsched支持不同版本混用在一个集群里但是有以下限制
    • 在有HA模式下的头节点版本必须一致.
    • 如果头节点和计算节点版本有差异. 头节点的版本必须比计算节点新.
    • 新版本中的新功能, 在老节点上不可用.

非标准目录解压方式

fsched的每个安装包都包含版本号, 一般位于 /opt/fsched-xxx (其中xxx为版本). 实际使用的路径为/opt/fsched 为符号链接到具体的版本中. 所以解压覆盖一个没有在使用中的安装包是安全的. 但是解压覆盖一个正在使用中的版本不是安全的.

  1. 创建一个临时目录
    mkdir /tmp/fsched
  2. 解压到临时目录
    tar -xvf fsched-*.tar.gz -C /tmp/fsched ./opt
  3. 把/tmp/fsched/opt目录下的文件拷贝到对应的目录