新建集群
在创建集群时,单个集群中允许的最大节点数量为200个
新建集群选择模板
点击新建集群,首先进入选择模板界面
权限说明
- 管理员可以看到所有的模板
- 普通用户角色仅能查看管理员授权的集群模板
选择模板
当新建集群时,首先进入选择模板界面
模板展示集群模板名称和集群模板描述信息,用户点击某个模板之后进入新建集群界面
说明:
-
如果模板为不可用状态,则标识”该模板缺少参数,请联系管理员重新编辑模板“,标识为不可用状态的模板不能进入新建集群界面
-
如果用户没有被授权的模板,提示“”暂无可使用的集群模版 请联系管理员授权集群模板
新建集群
分为通过固定模板新建集群,和通过集群模板新建集群,请查看快速入门->新建集群章节
集群配置
集群配置的含义是,该集群类型的所有节点使用的默认配置。如果用户不指定对应节点的配置项,那么该节点将使用集群配置。
字段说明:
-
集群名称:自动生成集群名称,用户可根据需求更改。集群名称为3~62个字符,以字母、数字和“-”组成且只能以字母开头!
-
用户资源限制: 开启用户资源限制,默认情况下所有用户将不能提交作业,需要通过添加集群配额给用户配置可用资源
-
SSH登录限制:开启SSH登录限制后,可以限制用户不通过调度器直接登录计算节点提交任务
-
告警服务:打开告警服务,集群创建时将会为该集群自动创建告警策略,当集群节点出现异常时,可自动邮件通知给对该集群有权限的所有用户
-
配置挂载:
- 可选择多条,挂载针对整个集群生效
- 针对分区的挂载可以在集群创建成功后进行配置
- 同一集群不可以选择两个具有相同挂载点的记录
告警服务:新建集群时,可以选择设置默认该集群的告警策略,目前不支持自定义模板规则;可以选集群节点运行状态异常、服务异常,默认关闭告警服务
-
如果选中“集群节点运行状态异常”,则在集群创建时自动在告警设置中创建一条告警策略
- 策略名称:自动生成, 名称中标识集群名,集群id,以及系统默认生成的策略标识,保证全局唯一
- 对象:该集群
- 类型:主机
- 节点:所有节点
- 级别:通知
- 监测周期:2分钟
- 持续周期:3次
- 沉默周期:24小时
- 告警规则:节点运行状态=异常
- 发送通知:是
- 邮箱:集群创建人
-
如果选中“服务异常”时,则在集群创建时自动在告警设置中创建一条告警策略
- 策略名称:自动生成, 名称中标识集群名,集群id,以及系统默认生成的策略标识,保证全局唯一
- 对象:该集群
- 类型:服务
- 级别:通知
- 监测周期:2分钟
- 持续周期:3次
- 沉默周期:24小时
- 告警规则:服务异常
- 发送通知:是
- 邮箱:集群创建人
计算分区
为了好的管理Fsched调度器集群,平台专门设计了分区板块,方便不同资源的分层管理和调度,以满足不同场景的业务需求。Fsched调度器支持多个分区,每个分区可以对应多种实例类型。每个分区内包含多个(Compute)计算节点。
公共配置
- 分区名称:系统自动以partition开头生成分区名称,用户可根据需求进行更改。同一集群中分区名称不能重复。分区中新增的动态节点主机名称会自动生成,由分区名称和索引构成,例如partition5161-1。
- 默认分区:设置默认分区后,任务会优先使用该分区资源(限 Fsched调度器 ),即平台默认将任务执行在默认分区。如不设置,分区一为默认分区。仅支持集群创建之后修改默认分区
- 启用超线程 :开启后表示vCPU为物理CPU的两倍;关闭表示vCPU等于物理CPU。默认开启,用户可根据需要进行设置。
- swap配置:默认值为关闭,当选择开启时,可以配置swap空间,最小值为1,最大值不限制。使用限制说明:
- 仅支持针对Linux节点的swap配置,windows节点不支持
- swap是针对每个节点单独进行配置的,即swap属性是在节点上而非分区上
- 标签:设置后同时生效于静态节点和动态节点,可随时更改节点上的标签,默认无标签设置
高级配置
-
允许组:设置分区资源的使⽤对象,限制可允许哪些组中的用户向该分区提交作业
-
ALL:所有用户都能向该分区提交作业;
-
NONE:禁止所有用户向该分区提交作业;
-
选择组:仅选中组的用户可以向该分区提交作业;
-
根据集群模版设置的参数,默认加载组名称。
注意: 若分区2未设置group1组,在group1组中的用户执行sinfo命令无法查看到分区2信息。
-
-
作业最长运行:设置作业运行的最⻓时间,当作业运行时⻓超过设置时间时,作业将被⾃动中断。
-
CPU超配系数:设置调度器对CPU的使用策略,控制调度器可分配的CPU为实际CPU的倍数,调度器可分配的CPU=计算节点实际CPU之和CPU超配系数。
-
负载阈值:默认关闭,通过对Fsched设置负载阈值,实现当计算节点的可用内存/CPU使用率超过设置的阈值时,Fsched将自动关闭计算节点(sinfo将显示该节点状态为drain),阻止新作业分配到计算节点上,降低系统OOM和宕机的风险。支持新建和编辑更改负载阈值。
动态节点
-
实例类型:即开启计算节点时所使用的实例类型。有多种实例类型可选,默认选择c1.2实例类型。不同的实例类型可以提供的计算能力不同,实例规格定义了实例的基本属性:CPU和内存,可根据不同的应用场景和作业需求选择相应配置的实例。
注意: 在以下情况下,平台将使用下一种实例类型开启资源。
- 机型资源不足
- 当第一个设置的实例类型在云上无此资源时,顺延开启第二个实例类型,第三第四个等依次类推;
- 每次只启动一次,依次启动到最后一个实例无资源时,节点报错,集群启动失败。 举例:选择了c1.2和c1.4两个实例,此时需要开启10个节点,当c1.2实例类型开到第6个无节点时,第6台c1.2在云上资源不足;将使用c1.4实例类型从第6台开始启动到第8台;当第8台c1.4云上资源不足时,第8、9、10台将无实例开启,节点报错,集群启动失败。
- 不存在此实例类型:若无此类型,平台将选择下一个类型启动;当全部实例不存在,出现报错提示。
- 当某一种实例类型使用比较多时,有可能会出现实例资源不足的情况。
- 机型资源不足
-
子网:默认使用全局配置的子网,用户可根据需求灵活调整,来制定某个分区所使用的子网。