跳到主要内容
版本:FCP 24.11

新建集群

提示

在创建集群时,单个集群中允许的最大节点数量为200个

新建集群选择模板

点击新建集群,首先进入选择模板界面

权限说明

  • 管理员可以看到所有的模板
  • 普通用户角色仅能查看管理员授权的集群模板

选择模板

当新建集群时,首先进入选择模板界面

模板展示集群模板名称和集群模板描述信息,用户点击某个模板之后进入新建集群界面

说明:

  • 如果模板为不可用状态,则标识”该模板缺少参数,请联系管理员重新编辑模板“,标识为不可用状态的模板不能进入新建集群界面

  • 如果用户没有被授权的模板,提示“”暂无可使用的集群模版 请联系管理员授权集群模板

新建集群

分为通过固定模板新建集群,和通过集群模板新建集群,请查看快速入门->新建集群章节

集群配置

集群配置的含义是,该集群类型的所有节点使用的默认配置。如果用户不指定对应节点的配置项,那么该节点将使用集群配置。

字段说明:

  • 集群名称:自动生成集群名称,用户可根据需求更改。集群名称为3~62个字符,以字母、数字和“-”组成且只能以字母开头!

  • 用户资源限制: 开启用户资源限制,默认情况下所有用户将不能提交作业,需要通过添加集群配额给用户配置可用资源

  • SSH登录限制:开启SSH登录限制后,可以限制用户不通过调度器直接登录计算节点提交任务

  • 告警服务:打开告警服务,集群创建时将会为该集群自动创建告警策略,当集群节点出现异常时,可自动邮件通知给对该集群有权限的所有用户

  • 配置挂载:

    • 可选择多条,挂载针对整个集群生效
    • 针对分区的挂载可以在集群创建成功后进行配置
    • 同一集群不可以选择两个具有相同挂载点的记录

告警服务:新建集群时,可以选择设置默认该集群的告警策略,目前不支持自定义模板规则;可以选集群节点运行状态异常、服务异常,默认关闭告警服务

  • 如果选中“集群节点运行状态异常”,则在集群创建时自动在告警设置中创建一条告警策略

    • 策略名称:自动生成, 名称中标识集群名,集群id,以及系统默认生成的策略标识,保证全局唯一
    • 对象:该集群
    • 类型:主机
    • 节点:所有节点
    • 级别:通知
    • 监测周期:2分钟
    • 持续周期:3次
    • 沉默周期:24小时
    • 告警规则:节点运行状态=异常
    • 发送通知:是
    • 邮箱:集群创建人
  • 如果选中“服务异常”时,则在集群创建时自动在告警设置中创建一条告警策略

    • 策略名称:自动生成, 名称中标识集群名,集群id,以及系统默认生成的策略标识,保证全局唯一
    • 对象:该集群
    • 类型:服务
    • 级别:通知
    • 监测周期:2分钟
    • 持续周期:3次
    • 沉默周期:24小时
    • 告警规则:服务异常
    • 发送通知:是
    • 邮箱:集群创建人

计算分区

为了好的管理Fsched调度器集群,平台专门设计了分区板块,方便不同资源的分层管理和调度,以满足不同场景的业务需求。Fsched调度器支持多个分区,每个分区可以对应多种实例类型。每个分区内包含多个(Compute)计算节点。

公共配置

  • 分区名称:系统自动以partition开头生成分区名称,用户可根据需求进行更改。同一集群中分区名称不能重复。分区中新增的动态节点主机名称会自动生成,由分区名称和索引构成,例如partition5161-1。
  • 默认分区:设置默认分区后,任务会优先使用该分区资源(限 Fsched调度器 ),即平台默认将任务执行在默认分区。如不设置,分区一为默认分区。仅支持集群创建之后修改默认分区
  • 启用超线程 :开启后表示vCPU为物理CPU的两倍;关闭表示vCPU等于物理CPU。默认开启,用户可根据需要进行设置。
  • swap配置:默认值为关闭,当选择开启时,可以配置swap空间,最小值为1,最大值不限制。使用限制说明:
    • 仅支持针对Linux节点的swap配置,windows节点不支持
    • swap是针对每个节点单独进行配置的,即swap属性是在节点上而非分区上
  • 标签:设置后同时生效于静态节点和动态节点,可随时更改节点上的标签,默认无标签设置

高级配置

  • 允许组:设置分区资源的使⽤对象,限制可允许哪些组中的用户向该分区提交作业

    • ALL:所有用户都能向该分区提交作业;

    • NONE:禁止所有用户向该分区提交作业;

    • 选择组:仅选中组的用户可以向该分区提交作业;

    • 根据集群模版设置的参数,默认加载组名称。

    注意: 若分区2未设置group1组,在group1组中的用户执行sinfo命令无法查看到分区2信息。

  • 作业最长运行:设置作业运行的最⻓时间,当作业运行时⻓超过设置时间时,作业将被⾃动中断。

  • CPU超配系数:设置调度器对CPU的使用策略,控制调度器可分配的CPU为实际CPU的倍数,调度器可分配的CPU=计算节点实际CPU之和CPU超配系数。

  • 负载阈值:默认关闭,通过对Fsched设置负载阈值,实现当计算节点的可用内存/CPU使用率超过设置的阈值时,Fsched将自动关闭计算节点(sinfo将显示该节点状态为drain),阻止新作业分配到计算节点上,降低系统OOM和宕机的风险。支持新建和编辑更改负载阈值。

动态节点

  • 实例类型:即开启计算节点时所使用的实例类型。有多种实例类型可选,默认选择c1.2实例类型。不同的实例类型可以提供的计算能力不同,实例规格定义了实例的基本属性:CPU和内存,可根据不同的应用场景和作业需求选择相应配置的实例。

    注意: 在以下情况下,平台将使用下一种实例类型开启资源。

    • 机型资源不足
      • 当第一个设置的实例类型在云上无此资源时,顺延开启第二个实例类型,第三第四个等依次类推;
      • 每次只启动一次,依次启动到最后一个实例无资源时,节点报错,集群启动失败。 举例:选择了c1.2和c1.4两个实例,此时需要开启10个节点,当c1.2实例类型开到第6个无节点时,第6台c1.2在云上资源不足;将使用c1.4实例类型从第6台开始启动到第8台;当第8台c1.4云上资源不足时,第8、9、10台将无实例开启,节点报错,集群启动失败。
    • 不存在此实例类型:若无此类型,平台将选择下一个类型启动;当全部实例不存在,出现报错提示。
    • 当某一种实例类型使用比较多时,有可能会出现实例资源不足的情况。
  • 子网:默认使用全局配置的子网,用户可根据需求灵活调整,来制定某个分区所使用的子网。

  • 镜像:选择集群机器的操作系统,也可以选择自定义的操作系统镜像。默认使用全局配置的镜像,用户可根据需求灵活调整,来指定某个分区所使用的镜像。

  • 系统卷:设置实例的系统盘空间大小,即开启计算节点时所使用的系统卷大小。默认是最小值,也是分区镜像的容量。用户可根据需要调大系统卷的大小。

  • 手动节点: 该分区内所含的计算节点数量,请根据作业应用来合理设置。数量范围是0-999。

  • 自动伸缩(自动节点):自动伸缩(AutoScale)的功能是:在任务调度过程中根据任务的大小以及排队情况,动态扩充和收缩计算节点的数量。开启后,系统将根据提交的任务临时申请相应的计算资源。当任务执行完毕,在机器闲置一段时间后自动回收并释放,闲置时间可由用户自定义。 关闭自动伸缩时,系统只使用静态集群,即任务只能提交到手动开机的节点上。自动伸缩的实例类型与分区的实例类型一致。自动伸缩开启/释放的节点,与手动节点互不影响。当开启自动伸缩后,可以设置如下三个参数:

    • 伸缩最小数量:动态收缩的节点最小数量,即任务执行完成后,节点释放到的最小值,默认为0;

    • 伸缩最大数量:动态扩种的节点最大数量,即执行任务时,可以开启的最大节点数量,默认为10;

    • 闲置时间(min):任务执行结束后,节点等待多久后释放;可设置范围为5-1440分钟。默认为10分钟

    • 过期天数:设置自动节点最长运行时间,若超出过期天数,自动节点将不再接受新的作业。

    • 预留节点数量:分区中始终保持运⾏并且处于空闲状态的自动节点的数量,保证用户提交作业时可立即被执行,减少因开启实例造成的时间浪费,提⾼作业执⾏效率。

      自动伸缩计算值说明

      【分区最大节点数量】=【同分区内静态节点数量】➕ 【同分区内手动节点数量】➕ 【自动伸缩的最大值】

      示例一:手动节点数量为2,自动伸缩范围为[2, 5],闲置时间为5分钟。

      • 手动节点开启2台,集群运行后,自动节点开启2台;
      • 执行srun -N4 -n4 hostname任务,打印2个手动节点的hostname,打印2个自动节点的hostname;任务执行完成后,保留2个手动节点和2个自动节点;
      • 执行srun -N5 -n5 hostname任务,自动伸缩功能将开启1个节点,打印5个不同的hostname;任务执行完成后,等待5分钟,释放1个节点,保留2个手动节点和2个自动节点;
      • 执行srun -N7 -n7 hostname任务,autoscale将开启3个节点,打印7个不同的hostname;任务执行完成后,等待5分钟,释放3个节点,保留2个手动节点和2个自动节点。

      示例二:静态节点数量为2,自动伸缩范围为[0, 5],闲置时间为5分钟。

      • 静态节点开启2台,集群运行后,无自动节点;

      • 执行srun -N2 -n2 hostname任务,打印2个静态节点的hostname任务执行完成后,保留2个静态节点;

      • 执行srun -N4 -n4 hostname任务,autoscale将开启2个自动节点,打印4个不同的hostname;任务执行完成后,等待5分钟,释放2个节点,保留2个静态节点;

      • 执行srun -N7 -n7 hostname任务,autoscale将开启3个自动节点,打印7个不同的hostname;任务执行完成后,等待5分钟,释放3个节点,保留2个静态节点。

      注意: 上述示例为展示自动伸缩开启释放节点的说明,需要注意srun属于交互式任务, 在机器创建过程中, 因为机器初始化过程, 可能会因为网络通道连接不稳定导致任务提交报错。若要完全避免此问题,强烈建议使用sbatch提交。

静态节点

在新建集群时可选择未使用的静态节点直接创建,节点字段说明请查看资源管理->主机管理

  • 权限说明
    • 管理员可使用所有的静态节点
    • 普通用户需要通过主机组设置权限,默认无任何节点的选择权限
  • 字段说明:请查看资源管理->主机管理

注意:

  1. 已作为登录节点和头节点,不能再被选择为计算节点
  2. 同一个集群中,一个计算节点可以被多个分区使用

登录分区

公共配置

  • swap配置:请查看集群管理->新建集群-计算分区章节
  • 标签:请查看集群管理->新建集群-计算分区章节

动态节点

  • 镜像: 请查看集群管理->新建集群-计算分区章节

  • 子网:请查看集群管理->新建集群-计算分区章节

  • 实例类型:请查看集群管理->新建集群-计算分区章节

  • 系统卷:请查看集群管理->新建集群-计算分区章节

  • 手动节点: 请查看集群管理->新建集群-计算分区章节

静态节点

请查看集群管理->新建集群-计算分区章节

头分区

公共配置

  • swap配置:请查看集群管理->新建集群-计算分区章节
  • 标签:请查看集群管理->新建集群-计算分区章节

动态节点

  • 镜像: 请查看集群管理->新建集群-计算分区章节

  • 子网:请查看集群管理->新建集群-计算分区章节

  • 实例类型:请查看集群管理->新建集群-计算分区章节

  • 系统卷:请查看集群管理->新建集群-计算分区章节

  • 手动节点: 请查看集群管理->新建集群-计算分区章节

静态节点

请查看集群管理->新建集群-计算分区章节

注意:

  • 1个集群必须存在一个状态在运行中/更新中的头节点。
  • 到期策略为自动释放的节点,不能作为头节点加入到集群中。