跳到主要内容
版本:FCP 25.11

新建集群

提示
  1. 在创建集群时,单个集群中允许的节点总数上限为 200 个。
  2. 仅在FCP-Suite开启混合云功能后可以创建按量和包年包月节点。
  3. 仅在FCP-Suite开启混合云功能后可以使用费用预估功能。

"新建集群"功能允许您在平台中快速构建一个高性能计算环境。通过模板化引导与可视化配置,您可以将复杂的硬件、软件与调度策略封装为可一键部署的集群,极大地简化了HPC环境的初始化工作。

集群类型

平台支持创建以下几种类型的集群,以满足不同的业务和技术需求:

  • Fsched集群

    • 这是最常用的集群类型,使用 Fsched 作为核心作业调度器。
    • 适用于需要复杂作业调度、队列管理、资源配额控制、优先级调度等高级功能的通用高性能计算(HPC)场景。
    • 用户通过调度器命令(如 srun, sbatch)提交和管理作业。
  • None-Linux集群

    • 指运行 Linux 操作系统,但 无内置作业调度器(如Fsched) 的集群。
    • 适用于无需复杂作业调度、用户直接通过SSH登录节点运行任务,或使用第三方集群管理工具(如Kubernetes, Slurm等)的场景。
    • 提供基础的节点管理、网络和存储集成能力。
  • None-Windows集群

    • 指运行 Windows 操作系统,且 无内置作业调度器 的集群。
    • 适用于完全依赖Windows生态的特定应用(如某些商业EDA软件、Windows版科学计算软件),且习惯通过远程桌面或特定管理工具进行任务分发的场景。

费用预估

在配置集群时,系统会根据您当前的选择,提供以 31天(约一个月) 为周期的费用预估,帮助您规划预算。

  • 估算对象
    • 动态节点:您在配置中设置的"手动节点数量"。
    • 自动伸缩节点:根据您设置的"伸缩最大数量"和预计负载模型进行的估算。
  • 估算周期与模式
    • 费用预估基于 按量计费(后付费) 模式计算。
    • 默认按所选节点规格 24小时不间断运行31天 进行估算,得出一个参考上限。
    • 对于自动伸缩节点,系统会根据您设置的伸缩最小值伸缩最大值,分别计算其在该区间内按24小时不间断运行31天所产生的费用范围,为您提供一个浮动的估算区间。
  • 包年包月优惠提示
    • 若您的计算负载长期稳定,采用包年包月(预付费) 模式通常能大幅节省成本。
    • 系统会在费用预估区域显示与按量计费的对比,直观展示选择包年包月模式可能节省的费用百分比。
    • 建议:对于需要连续运行超过1个月的生产环境核心节点,优先考虑包年包月计费方式。

注意:费用预估仅为参考,实际费用以最终账单为准。自动伸缩节点的实际费用取决于作业负载和闲置释放策略。

前提条件

开始创建集群前,请确保您已具备相应权限:

  • 拥有创建集群的系统权限。
  • 如需使用特定集群模板,需拥有该模板的使用权限
  • 如需关联特定静态节点或网络资源,需拥有对应资源的访问权限。
  • 创建集群过程中涉及的部分专业术语,可提前阅读名词解释以帮助理解。

相关权限的详细说明,请查看权限说明文档

新建集群流程

1. 选择集群模板

创建集群的第一步是选择合适的模板作为基础。

  • 界面说明:进入"新建集群"后,系统会展示所有您拥有权限的集群模板列表,包括模板名称、描述和集群类型。
  • 模板状态
    • 可用模板:点击即可进入详细配置界面。
    • 不可用模板:若模板因缺少必要参数而不可用,将显示"该模板缺少参数,请联系管理员重新编辑模板"的提示,且无法被选中。
  • 无模板提示:若您未被授权使用任何模板,界面将提示"暂无可使用的集群模板,请联系管理员授权"。

2. 配置集群

选择模板后,进入集群核心配置页面。此处的配置将作为整个集群的默认设置。

字段说明

  • 集群名称:系统自动生成一个名称。您可将其修改为3~62个字符,以字母开头,仅包含字母、数字和"-"的名称。
  • 用户资源限制:开启后,默认所有用户无法向该集群提交作业。需后续通过"集群配额"功能为用户显式分配资源后才可使用。(仅Fsched集群有效)
  • SSH登录限制:开启后,可阻止用户绕过调度器直接通过SSH登录计算节点,确保所有计算任务都经过统一调度和管理。(仅Fsched集群有效)
  • 告警服务:开启后,集群创建时将自动创建默认告警策略。具体说明请参阅下文告警服务详细说明
  • 释放保护:开启后,任何用户(包括管理员)都无法释放此集群,防止误操作。
  • 配置挂载:为整个集群设置共享存储挂载点。具体说明请参阅下文配置挂载详细说明
  • 自定义设置:集群级别用于配置Fsched调度器的高级参数。请在明确参数含义和影响后进行设置,具体说明请参阅下文自定义设置详细说明。(仅Fsched集群有效)

3. 配置计算分区

分区是集群资源管理和调度的核心单元,用于满足不同场景的业务需求。(注意:None-Linux与None-Windows集群的分区概念主要用于资源分组,不具备Fsched的调度策略功能且只能创建1个分区)

公共配置(所有节点类型通用)

  • 分区名称:系统自动生成(如partition-XXXX),您可修改。同一集群内分区名称不可重复。
  • 默认分区:执行任务未指定分区时,会自动调度至此分区。默认为第一个创建的分区,且在创建时或创建后可修改。(仅Fsched集群有效)
  • 启用超线程:开启后,vCPU数为物理CPU核心数的两倍;关闭则一一对应。默认开启。
  • swap配置:可为Linux节点配置交换空间。具体说明请参阅下文swap配置详细说明
  • 标签:为分区内的节点打上标签,便于识别、分账和管理。

高级配置(调度策略)

  • 允许组:精细化控制哪些用户组可向此分区提交作业。具体说明请参阅下文允许组详细说明。(仅Fsched集群有效)
  • 允许用户:精细化控制哪些用户可向此分区提交作业。(仅Fsched集群有效)
  • 作业最长运行时间:作业运行时长超过此设置时,作业将被自动终止。(仅Fsched集群有效)
  • 最大使用CPU数:该分区内所有任务总共可用的CPU数。此选项控制的是调度器内配置的CPU数量,而非节点实际CPU数量。(仅Fsched集群有效)
  • CPU超配系数:设置调度器可分配的虚拟CPU总量与物理CPU的倍数关系。(仅Fsched集群有效)
  • 负载阈值:设置CPU/内存使用率阈值,超过后节点将被标记为drain状态,不再接收新作业,以降低系统风险。(仅Fsched集群有效)
  • 自定义设置:分区级别用于配置Fsched调度器的高级参数。*请在明确参数含义和影响后进行设置,具体说明请参阅下文自定义设置详细说明。(仅Fsched集群有效)

节点来源配置

每个分区可以混合使用动态节点和静态节点。

动态节点配置

  • 实例类型:定义节点的vCPU和内存规格。支持设置备选实例类型,当首选类型资源不足时自动尝试下一选项直至成功开启。
  • 镜像:节点的操作系统。镜像是预配置的操作系统安装包,其中包含了操作系统以及预安装的软件和配置。选择后,程序会自动安装此镜像到节点上。
  • 系统卷:系统盘大小。
  • 子网:节点所在的网络子网。
  • 手动节点数量:集群创建时即固定开启的节点数量(0-999)。配置此项后,右侧会显示对应费用的预估。
  • 自动伸缩(自动节点):(仅Fsched集群有效)
    • 功能:根据作业队列情况自动增删节点,任务完成后闲置指定时间自动释放。具体说明请参阅下文自动伸缩详细说明
    • 关键参数:伸缩最小/最大节点数、闲置时间(分钟)、过期天数、预留节点数量。配置"伸缩最大数量"后,右侧会显示基于此最大值的费用预估。

静态节点配置

  • 选择静态节点加入分区。
  • 注意:已作为登录节点或头节点的机器不可再被选为计算节点;一个计算节点可被多个分区共享使用。

4. 配置登录分区与头分区(仅Fsched集群有效)

登录分区和头分区的配置项与计算分区大部分相同,主要差异在于角色和部分限制:

  • 登录分区:用户通过SSH/VNC连接的入口节点所在分区。
  • 头分区:运行集群调度器(Fsched)管理服务的主节点所在分区。(仅Fsched集群需要)
    • 关键要求:一个Fsched集群必须至少有一个处于运行中更新中状态的头节点。
    • 重要限制:如果节点的计费类型为包年或包月时,到期策略为自动释放的节点不能用作头节点。

核心参数详细说明

配置挂载

  • 可选择多条挂载配置,挂载针对整个集群生效。
  • 针对分区的挂载可以在集群创建成功后进行配置。
  • 同一集群内不可以选择两个具有相同挂载点的记录。

自定义设置

  • 此为调度器高级设置,请在明确配置内容和影响的情况下设置此参数。
  • 相关文档请参考Fsched调度器说明文档

告警服务

新建集群时,可以选择设置默认该集群的告警策略,目前不支持自定义模板规则;默认关闭告警服务。开启后可选择以下监控项:

  • 集群节点运行状态异常:选中此项后,系统自动创建一条告警策略。
    • 策略名称:自动生成, 名称中标识集群名,集群id,以及系统默认生成的策略标识,保证全局唯一。
    • 对象:该集群。
    • 类型:主机。
    • 节点:所有节点。
    • 级别:通知。
    • 监测周期:2分钟。
    • 持续周期:3次。
    • 沉默周期:24小时。
    • 告警规则:节点运行状态=异常。
    • 发送通知:是。
    • 邮箱:集群创建人。
  • 服务异常:选中此项后,系统自动创建一条告警策略。
    • 策略名称:自动生成, 名称中标识集群名,集群id,以及系统默认生成的策略标识,保证全局唯一。
    • 对象:该集群。
    • 类型:服务。
    • 级别:通知。
    • 监测周期:2分钟。
    • 持续周期:3次。
    • 沉默周期:24小时。
    • 告警规则:服务异常。
    • 发送通知:是。
    • 邮箱:集群创建人。

swap配置

  • 默认值为关闭,当选择开启时,可以配置swap空间,最小值为1,最大值不限制。
  • 使用限制说明
    • 仅支持针对Linux节点的swap配置,Windows节点不支持。
    • swap是针对每个节点单独进行配置的,即swap属性是在节点上而非分区上。

自动伸缩(自动节点)

自动伸缩(AutoScale)的功能是:在任务调度过程中根据任务的大小以及排队情况,动态扩充和收缩计算节点的数量。

  • 开启后,系统将根据提交的任务临时申请相应的计算资源。当任务执行完毕,在机器闲置一段时间后自动回收并释放,闲置时间可由用户自定义。
  • 关闭自动伸缩时,系统只使用静态集群,即任务只能提交到手动开机的节点上。
  • 自动伸缩的实例类型与分区的实例类型一致。自动伸缩开启/释放的节点,与手动节点互不影响。

开启自动伸缩后可设置参数:

  • 伸缩最小数量:动态收缩的节点最小数量,即任务执行完成后,节点释放到的最小值,默认为0。
  • 伸缩最大数量:动态扩展的节点最大数量,即执行任务时,可以开启的最大节点数量,默认为10。
  • 闲置时间(min):任务执行结束后,节点等待多久后释放;可设置范围为5-1440分钟。默认为10分钟。
  • 过期天数:设置自动节点最长运行时间,若超出过期天数,自动节点将不再接受新的作业。
  • 预留节点数量:分区中始终保持运行并且处于空闲状态的自动节点的数量,保证用户提交作业时可立即被执行,减少因开启实例造成的时间浪费,提高作业执行效率。

自动伸缩计算值说明

  • 【分区最大节点数量】=【同分区内静态节点数量】➕ 【同分区内手动节点数量】➕ 【自动伸缩的最大值】

示例说明

  • 示例一:手动节点数量为2,自动伸缩范围为[2, 5],闲置时间为5分钟。
    • 手动节点开启2台,集群运行后,自动节点开启2台。
    • 执行srun -N4 -n4 hostname任务,打印2个手动节点的hostname,打印2个自动节点的hostname;任务执行完成后,保留2个手动节点和2个自动节点。
    • 执行srun -N5 -n5 hostname任务,自动伸缩功能将开启1个节点,打印5个不同的hostname;任务执行完成后,等待5分钟,释放1个节点,保留2个手动节点和2个自动节点。
    • 执行srun -N7 -n7 hostname任务,autoscale将开启3个节点,打印7个不同的hostname;任务执行完成后,等待5分钟,释放3个节点,保留2个手动节点和2个自动节点。
  • 示例二:静态节点数量为2,自动伸缩范围为[0, 5],闲置时间为5分钟。
    • 静态节点开启2台,集群运行后,无自动节点。
    • 执行srun -N2 -n2 hostname任务,打印2个静态节点的hostname任务执行完成后,保留2个静态节点。
    • 执行srun -N4 -n4 hostname任务,autoscale将开启2个自动节点,打印4个不同的hostname;任务执行完成后,等待5分钟,释放2个节点,保留2个静态节点。
    • 执行srun -N7 -n7 hostname任务,autoscale将开启3个自动节点,打印7个不同的hostname;任务执行完成后,等待5分钟,释放3个节点,保留2个静态节点。

注意:上述示例为展示自动伸缩开启释放节点的说明,需要注意srun属于交互式任务,在机器创建过程中,因为机器初始化过程,可能会因为网络通道连接不稳定导致任务提交报错。若要完全避免此问题,强烈建议使用sbatch提交。

使用注意事项

  1. 规划先行:在创建前,根据作业类型、应用(Linux/Windows)和是否需要作业调度来选择集群类型。根据并发量规划好分区策略、节点规格和数量。
  2. 善用模板:将常用配置保存为模板,便于团队统一标准和快速复制。
  3. 成本优化
    • 关注界面提供的费用预估,对于长期稳定运行的节点,优先考虑包年包月计费模式以节省成本。
    • 对于波动的计算需求,充分利用自动伸缩功能,避免资源闲置。
  4. 关注限制:注意单个集群200个节点的总数上限,以及头节点的特殊要求。
  5. 安全与管控:对于Fsched集群,合理使用用户资源限制SSH登录限制释放保护功能,加强集群的合规性与安全性。

完成所有配置后,提交创建请求,系统将自动完成资源申请、软件部署和调度器初始化,您可以在集群列表中监控创建进度。