升级 Fsched
适用范围
本文档适用以下场景, 请按场景执行:
- 现存集群
- FCP平台
- FCC-E (镜像)
危险
- 如果安装当前集群使用的相同版本的fsched,可能会影响正在运行的job
步骤
现存集群
-
复制安装包(fsched-*.tar.gz)到目标机器.
-
安装fsched-{BUILDVERSION},命令中
{BUILDVERSION}
替换为要安装的版本sudo tar -xvf fsched-{BUILDVERSION}.tar.gz -C /opt
sudo /opt/fsched-{BUILDVERSION}/install.sh -t /usr/bin [-r]
-r: 可选参数,尝试自动重启服务。在版本fsched-10.61及以后的版本生效。安装成功时, 安装脚本最后输出为:
Successfully installed fsched from ...
如果不是, 则安装失败. 请检查失败步骤, 纠正后重复执行安装脚本.
-
如果步骤2没有自动重启服务,需要手动重启对应服务
- 头节点重启slurmctld和fs-statesvc
- 计算节点重启slurmd
-
如果是HA配置, 先升级从节点, 再升级主节点.
FCP 平台
- 对于FCP平台, 按照 现存集群 步骤升级已经存在的集群.
- 复制安装包(fsched-*.tar.gz), 覆盖
/opt/components/fsched.tar.gz
, 该步骤保证后续新添加的节点获得新fsched组件.
镜像(只适用于FCC-E)
- 从console上创建一个虚机.
- 复制fsched-*.tar.gz到虚机.
- 按照安装步骤安装.
- 制作镜像, 并根据镜像更新步骤注册到API.
其他注意事项
- fsched支持不同版本混用在一个集群里但是有以下限制
- 在有HA模式下的头节点版本必须一致.
- 如果头节点和计算节点版本有差异. 头节点的版本必须比计算节点新.
- 新版本中的新功能, 在老节点上不可用.
非标准目录解压方式
fsched的每个安装包都包含版本号, 一般位于 /opt/fsched-xxx (其中xxx为版本). 实际使用的路径为/opt/fsched 为符号链接到具体的版本中. 所以解压覆盖一个没有在使用中的安装包是安全的. 但是解压覆盖一个正在使用中的版本不是安全的.
- 创建一个临时目录
mkdir /tmp/fsched
- 解压到临时目录
tar -xvf fsched-*.tar.gz -C /tmp/fsched ./opt
- 把/tmp/fsched/opt目录下的文件拷贝到对应的目录