分区管理员
默认情况下,对于集群的管理操作只能是由超级管理员来执行,但是在大型环境中,超级管理员可能无法处理所有的管理操作。因此,我们引入了分区管理员的概念,分区管理员是一种特殊的用户,可以对集群中的某个分区进行管理操作,但是不能对整个集群进行管理。目前分区管理员可以对分区进行如下操作:
- 取消分区中的任务
- 设置分区是否可以接受新的任务(DRAIN/UP)
支持版本
10.61 及以上
使用说明
- 分区管理通过分区的
Admins
参数配置。该参数支持配置多个分区管理员,格式为用户的Linux用户名,通过逗号(,)分隔。 - 具备分区管理员身份的用户可以使用
scancel
取消对应分区中其他用户的任务。 - 具备分区管理员身份的用户可以使用wrapper中的
bkill
,qdel
取消对应分区中其他用户的任务。 - 具备分区管理员身份的用户可以使用
scontrol update partition=<分区名> state=<UP/DRAIN>
来设置分区是否可以接受新的任务。
示例
假设有管理员用户admin
,我们可以通过如下配置来设置其为分区compute
的管理员:
PartitionName=compute Nodes=compute[1-3] ... Admins=admin
注意
- 分区管理员只能对分区进行管理操作,不能对整个集群进行管理。
- 当分区管理员配置不正确,或者无法解析该用户名的时候,集群控制器会无法启动。
- 在使用
scontrol
命令时,需要注意不要同时更新其他分区选项,否则状态更新会失败。