跳到主要内容
版本:FCP 24.05

Fsched集群配额

支持针对用户和组设置集群的最大CPU数、最大GPU数、最大内存和最大作业数限制。

使用限制

  • 管理员可以针对所有的集群设置配置;普通用户仅支持对自己创建的或者别人分享的有读写权限的集群创建配额
  • 管理员关联组时,可以选择当前环境中组;普通用户仅可以输入组(和访问控制权限和选择用户/组的交互相同),用户主组生效
  • 升级问题处理:23.12之前通过sop管理的配额,如果后续希望通过产品的集群配额功能进行管理,需要先删除掉旧的配额条目,否则会有冲突。

配额说明

  • 仅每用户资源限制为开启状态时,才可以配置配额,点击添加配额,先检测当前集群是否开启了用户资源配额
    • 如果为关闭状态,右上角提示”请先开启用户资源配额“
    • 如果为开启状态,直接进入添加配额界面
  • 仅支持针对组设置配额,用户的配额只以该用户所在的主组为准,举例说明:
    • zhucui用户属于三个组:zhucui组、defaultGroup组、group-1组,zhucui组为主组,此时针对defaultGroup组、group-1组分别设置了配额,则zhucui用户无配额,默认不能提交作业
    • 配额生效在用户上,给主组设置配额,即该主组中的每个用户都有这些配额,如zhucui、test用户的主组为group,针对group设置配额cpu=10,即zhucui和test用户分别可以使用10个cpu,而不是zhucui和test用户共享10个cpu
  • 系统管理中修改了用户和组的关联关系,配额同步生效

用户资源限制

开启每用户资源限制,默认情况下所有用户将不能提交作业,需要通过添加集群配额给用户配置可用资源 关闭每用户资源限制,已经配置的集群配额不再生效,默认情况下所有用户将不再受集群配额限制 新建集群/新建模板时,设置用户资源限制

集群概览中,支持修改每用户资源限制

  • 当开启每用户资源限制时,二次提示“开启用户资源限制,默认情况下所有用户将不能提交作业,需要通过添加集群配额给用户配置可用资源,请确认是否开启每用户资源限制?注意:开启后用户正在运行的作业可能会受到影响,请在集群空闲时执行该操作!”, 开启每用户资源限制后,
    • 默认所有用户不再能通过调度器提交作业
    • 可以添加集群配额
  • 当关闭每用户资源限制时,二次提示”关闭每用户资源限制,已经配置的集群配额不再生效,默认情况下所有用户将不再受集群配额限制,请确认是否关闭每用户资源限制?注意:关闭后用户正在运行的作业可能会受到影响,请在集群空闲时执行该操作!“, 关闭每用户资源限制后,
    • 默认所有用户不受集群配额限制,可以正常提交作业
    • 已经配置的集群配额不再生效

添加配额

仅当集群处于运行中 和更新中 且用户资源限制为开启状态时可以添加配额

参数说明:

  • 主组:必选,支持多选,管理员可以选择当前环境中的组;普通用户仅可以输入组
  • 分区:必选,支持多选,仅支持选择计算分区,仅支持选择运行中更新中的分区
  • CPU配额:必选,默认值为10,整数,最小值为0,不限制值为-1,不限制时不能修改值
  • GPU配额:必选,默认值为-1,即不限制,整数,最小值为0,不限制时不能修改值
  • 运行中的作业数量:必选,默认值为1000,整数,最小值为0,不限制值为-1,不限制时不能修改值

点击确定后

  • 每个组每个分区生成一条记录,每条记录自动生成一个ID
  • 当新增的配额,组+分区和原列表有冲突时,报错提示
  • 在Fsched集群的分区中,通过用户提交作业时,会受到配额的限制 举例说明:user-1的主组为group-1,针对group-1设置partition-1的cpu配额=1,当用户通过调度器在partition-1分区提交作业时,申请2个cpu,此时分区中空闲cpu>2,作业也会进入排队状态