跳到主要内容

分区管理员

默认情况下,对于集群的管理操作只能是由超级管理员来执行,但是在大型环境中,超级管理员可能无法处理所有的管理操作。因此,我们引入了分区管理员的概念,分区管理员是一种特殊的用户,可以对集群中的某个分区进行管理操作,但是不能对整个集群进行管理。目前分区管理员可以对分区进行如下操作:

  • 取消分区中的任务
  • 设置分区是否可以接受新的任务(DRAIN/UP)

支持版本

10.61 及以上

使用说明

  • 分区管理通过分区的Admins参数配置。该参数支持配置多个分区管理员,格式为用户的Linux用户名,通过逗号(,)分隔。
  • 具备分区管理员身份的用户可以使用scancel取消对应分区中其他用户的任务。
  • 具备分区管理员身份的用户可以使用wrapper中的bkill, qdel取消对应分区中其他用户的任务。
  • 具备分区管理员身份的用户可以使用scontrol update partition=<分区名> state=<UP/DRAIN>来设置分区是否可以接受新的任务。

示例

假设有管理员用户admin,我们可以通过如下配置来设置其为分区compute的管理员:

PartitionName=compute Nodes=compute[1-3] ... Admins=admin
注意
  • 分区管理员只能对分区进行管理操作,不能对整个集群进行管理。
  • 当分区管理员配置不正确,或者无法解析该用户名的时候,集群控制器会无法启动。
  • 在使用scontrol命令时,需要注意不要同时更新其他分区选项,否则状态更新会失败。