新建集群
在创建集群时,单个集群中允许的最大节点数量为200个
新建集群选择模板
点击新建集群,首先进入选择模板界面
权限说明
- 管理员可以看到所有的模板
- 普通用户角色仅能查看管理员授权的集群模板
选择模板
当新建集群时,首先进入选择模板界面
模板展示集群模板名称和集群模板描述信息,用户点击某个模板之后进入新建集群界面
说明:
-
如果模板为不可用状态,则标识”该模板缺少参数,请联系管理员重新编辑模板“,标识为不可用状态的模板不能进入新建集群界面
-
如果用户没有被授权的模板,提示“”暂无可使用的集群模版 请联系管理员授权集群模板
新建集群
分为通过固定模板新建集群,和通过集群模板新建集群,请查看快速入门->新建集群章节
集群配置
集群配置的含义是,该集群类型的所有节点使用的默认配置。如果用户不指定对应节点的配置项,那么该节点将使用集群配置。
字段说明:
-
集群名称:自动生成集群名称,用户可根据需求更改。集群名称为3~62个字符,以字母、数字和“-”组成且只能以字母开头!
-
用户资源限制: 开启用户资源限制,默认情况下所有用户将不能提交作业,需要通过添加集群配额给用户配置可用资源
-
SSH登录限制:开启SSH登录限制后,可以限制用户不通过调度器直接登录计算节点提交任务
-
告警服务:打开告警服务,集群创建时将会为该集群自动创建告警策略,当集群节点出现异常时,可自动邮件通知给对该集群有权限的所有用户
-
配置挂载:
- 可选择多条,挂载针对整个集群生效
- 针对分区的挂载可以在集群创建成功后进行配置
- 同一集群不可以选择两个具有相同挂载点的记录
告警服务:新建集群时,可以选择设置默认该集群的告警策略,目前不支持自定义模板规则;可以选集群节点运行状态异常、服务异常, 默认关闭告警服务
-
如果选中“集群节点运行状态异常”,则在集群创建时自动在告警设置中创建一条告警策略
- 策略名称:自动生成, 名称中标识集群名,集群id,以及系统默认生成的策略标识,保证全局唯一
- 对象:该集群
- 类型:主机
- 节点:所有节点
- 级别:通知
- 监测周期:2分钟
- 持续周期:3次
- 沉默周期:24小时
- 告警规则:节点运行状态=异常
- 发送通知:是
- 邮箱:集群创建人
-
如果选中“服务异常”时,则在集群创建时自动在告警设置中创建一条告警策略
- 策略名称:自动生成, 名称中标识集群名,集群id,以及系统默认生成的策略标识,保证全局唯一
- 对象:该集群
- 类型:服务
- 级别:通知
- 监测周期:2分钟
- 持续周期:3次
- 沉默周期:24小时
- 告警规则:服务异常
- 发送通知:是
- 邮箱:集群创建人
计算分区
为了好的管理Fsched调度器集群,平台专门设计了分区板块,方便不同资源的分层管理和调度,以满足不同场景的业务需求。Fsched调度器支持多个分区,每个分区可以对应多种实例类型。每个分区内包含多个(Compute)计算节点。
公共配置
- 分区名称:系统自动以partition开头生成分区名称,用户可根据需求进行更改。同一集群中分区名称不能重复。分区中新增的动态节点主机名称会自动生成,由分区名称和索引构成,例如partition5161-1。
- 默认分区:设置默认分区后,任务会优先使用该分区资源(限 Fsched调度器 ),即平台默认将任务执行在默认分区。如不设置,分区一为默认分区。仅支持集群创建之后修改默认分区
- 启用超线程 :开启后表示vCPU为物理CPU的两倍;关闭表示vCPU等于物理CPU。默认开启,用户可根据需要进行设置。
- swap配置:默认值为关闭,当选择开启时,可以配置swap空间,最小值为1,最大值不限制。使用限制说明:
- 仅支持针对Linux节点的swap配置,windows节点不支持
- swap是针对每个节点单独进行配置的,即swap属性是在节点上而非分区上
- 标签:设置后同时生效于静态节点和动态节点,可随时更改节点上的标签,默认无标签设置
高级配置
-
允许组:设置分区资源的使⽤对象,限制可允许哪些组中的用户向该分区提交作业
-
ALL:所有用户都能向该分区提交作业;
-
NONE:禁止所有用户向该分区提交作业;
-
选择组:仅选中组的用户可以向该分区提交作业;
-
根据集群模版设置的参数,默认加载组名称。
注意: 若分区2未设置group1组,在group1组中的用户执行sinfo命令无法查看到分区2信息。
-
-
作业最长运行:设置作业运行的最⻓时间,当作业运行时⻓超过设置时间时,作业将被⾃动中断。
-
CPU超配系数:设置调度器对CPU的使用策略,控 制调度器可分配的CPU为实际CPU的倍数,调度器可分配的CPU=计算节点实际CPU之和CPU超配系数。
-
负载阈值:默认关闭,通过对Fsched设置负载阈值,实现当计算节点的可用内存/CPU使用率超过设置的阈值时,Fsched将自动关闭计算节点(sinfo将显示该节点状态为drain),阻止新作业分配到计算节点上,降低系统OOM和宕机的风险。支持新建和编辑更改负载阈值。
动态节点
-
实例类型:即开启计算节点时所使用的实例类型。有多种实例类型可选,默认选择c1.2实例类型。不同的实例类型可以提供的计算能力不同,实例规格定义了实例的基本属性:CPU和内存,可根据不同的应用场景和作业需求选择相应配置的实例。
注意: 在以下情况下,平台将使用下一种实例类型开启资源。
- 机型资源不足
- 当第一个设置的实例类型在云上无此资源时,顺延开启第二个实例类型,第三第四个等依次类推;
- 每次只启动一次,依次启动到最后一个实例无资源时,节点报错,集群启动失败。 举例:选择了c1.2和c1.4两个实例,此时需要开启10个节点,当c1.2实例类型开到第6个无节点时,第6台c1.2在云上资源不足;将使用c1.4实例类型从第6台开始启动到第8台;当第8台c1.4云上资源不足时,第8、9、10台将无实例开启,节点报错,集群启动失败。
- 不存在此实例类型:若无此类型,平台将选择下一个类型启动;当全部实例不存在,出现报错提示。
- 当某一种实例类型使用比较多时,有可能会出现实例资源不足的情况。
- 机型资源不足
-
子网:默认使用全局配置的子网,用户可根据需求灵活调整,来制定某个分区所使用的子网。
-
镜像:选择集群机器的操作系统,也可以选择自定义的操作系统镜像。默认使用全局配置的镜像,用户可根据需求灵活调整,来指定某个分区所使用的镜像。
-
系统卷:设置实例的系统盘空间大小,即开启计算节点时所使用的系统卷大小。默认是最小值,也是分区镜像的容量。用户可根据需要调大系统卷的大小。
-
手动节点: 该分区内所含的计算节点数量,请根据作业应用来合理设置。数量范围是0-999。
-
自动伸缩(自动节点):自动伸缩(AutoScale)的功能是:在任务调度过程中根据任务的大小以及排队情况,动态扩充和收缩计算节点的数量。开启后,系统将根据提交的任务临时申请相应的计算资源。当任务执行完毕,在机器闲置一段时间后自动回收并释放,闲置时间可由用户自定义。 关闭自动伸缩时,系统只使用静态集群,即任务只能提交到手动开机的节点上。自动伸缩的实例类型与分区的实例类型一致。自动伸缩开启/释放的节点,与手动节点互不影响。当开启自动伸缩后,可以设置如下三个参数:
-
伸缩最小数量:动态收缩的节点最小数量,即任务执行完成后,节点释放到的最小值,默认为0;
-
伸缩最大数量:动态扩种的节点最大数量,即执行任务时,可以开启的最大节点数量,默认为10;
-
闲置时间(min):任务执行结束后,节点等待多久后释放;可设置范围为5-1440分钟。默认为10分钟
-
过期天数:设置自动节点最长运行时间,若超出过期天数,自动节点将不再接受新的作业。
-
预留节点数量:分区中始终保持运⾏并且处于空闲状态的自动节点的数量,保证用户提交作业时可立即被执行,减少因开启实例造成的时间浪费,提⾼作业执⾏效率。
自动伸缩计算值说明
【分区最大节点数量】=【同分区内静态节点数量】➕ 【同分区内手动节点数量】➕ 【自动伸缩的最大值】
示例一:手动节点数量为2,自动伸缩范围为[2, 5],闲置时间为5分钟。
- 手动节点开启2台,集群运行后,自动节点开启2台;
- 执行srun -N4 -n4 hostname任务,打印2个手动节点的hostname,打印2个自动节点的hostname;任务执行完成后,保留2个手动节点和2个自动节点;
- 执行srun -N5 -n5 hostname任务,自动伸缩功能将开启1个节点,打印5个不同的hostname;任务执行完成后,等待5分钟,释放1个节点,保留2个手动节点和2个自动节点;
- 执行srun -N7 -n7 hostname任务,autoscale将开启3个节点,打印7个不同的hostname;任务执行完成后,等待5分钟,释放3个节点,保留2个手动节点和2个自动节点。
示例二:静态节点数量为2,自动伸缩范围为[0, 5],闲置时间为5分钟。
-
静态节点开启2台,集群运行后,无自动节点;
-
执行srun -N2 -n2 hostname任务,打印2个静态节点的hostname任务执行完成后,保留2个静态节点;
-
执行srun -N4 -n4 hostname任务,autoscale将开启2个自动节点,打印4个不同的hostname;任务执行完成后,等待5分钟,释放2个节点,保留2个静态节点;
-
执行srun -N7 -n7 hostname任务,autoscale将开启3个自动节点,打印7个不同的hostname;任务执行完成后,等待5分钟,释放3个节点,保留2个静态节点。
注意: 上述示例为展示自动伸缩开启释放节点的说明,需要注意srun属于交互式任 务, 在机器创建过程中, 因为机器初始化过程, 可能会因为网络通道连接不稳定导致任务提交报错。若要完全避免此问题,强烈建议使用sbatch提交。
-
静态节点
在新建集群时可选择未使用的静态节点直接创建,节点字段说明请查看资源管理->主机管理
- 权限说明
- 管理员可使用所有的静态节点
- 普通用户需要通过主机组设置权限,默认无任何节点的选择权限
- 字段说明:请查看资源管理->主机管理
注意:
- 已作为登录节点和头节点,不能再被选择为计算节点
- 同一个集群中,一个计算节点可以被多个分区使用
登录分区
公共配置
- swap配置:请查看集群管理->新建集群-计算分区章节
- 标签:请查看集群管理->新建集群-计算分区章节
动态节点
-
镜像: 请查看集群管理->新建集群-计算分区章节
-
子网:请查看集群管理->新建集群-计算分区章节
-
实例类型:请查看集群管理->新建集群-计算分区章节
-
系统卷:请查看集群管理->新建集群-计算分区章节
-
手动节点: 请查看集群管理->新建集群-计算分区章节
静态节点
请查看集群管理->新建集群-计算分区章节
头分区
公共配置
- swap配置:请查看集群管理->新建集群-计算分区章节
- 标签:请查看集群管理->新建集群-计算分区章节
动态节点
-
镜像: 请查看集群管理->新建集群-计算分区章节
-
子网:请查看集群管理->新建集群-计算分区章节
-
实例类型:请查看集群管理->新建集群-计算分区章节
-
系统卷:请查看集群管理->新建集群-计算分区章节
-
手动节点: 请查看集群管理->新建集群-计算分区章节
静态节点
请查看集群管理->新建集群-计算分区章节
注意:
- 1个集群必须存在一个状态在运行中/更新中的头节点。
- 到期策略为自动释放的节点,不能作为头节点加入到集群中。