跳到主要内容

简介

Fsched 是什么?

Fsched 是 Fastone 自主研发的 HPC 集群资源管理和作业调度软件,简称调度器。Fsched读作 /’ef,sked/ 。

Fsched 可以将计算负载分发至异构的、规模可变的计算集群中,帮助用户在一个共享的计算集群中以更高效的方式完成计算作业,并帮助企业提高资源利用率,降低单点故障造成的业务影响。

在高性能计算(HPC)环境中,HPC调度器是一个关键组件,负责管理和分配计算资源(如计算节点、处理器核心、内存等)给待执行的作业。调度器的主要功能包括:资源管理、作业调度、监控和报告、调度策略配置。

Fsched 调度器具备完整的自主知识产权,已经在多个不同行业、不同规模、不同应用的生产环境中经过若干年实际应用,其性能、易用性、稳定性已得到验证并获得了大量好评。

Fsched 版本

Fsched 分为两个版本:

  • 标准版 Fsched SE :即 Fsched Standard Edidtion,本文档如无特殊说明,以 Fsched 指代 Fsched 标准版。Fsched 不独立发布,而是内置于 Fastone 其他产品中,例如 FCP 和 FCC-E。
  • 社区版 Fsched CE:即 Fsched Community Edition。Fsched CE 版本对用户免费,用户可在6节点或300 CPU核心数的集群规模内自由使用。Fsched CE版本仅通过社区支持,不提供商业支持。

集群架构

fsched_arch

重要概念

集群

Fsched 集群是由多台节点组成的系统,这些计算机通过网络连接在一起,协同工作以执行计算作业。Fsched 用于管理这些计算资源,确保高效的作业调度和资源分配。集群的规模可以从几台到数千台计算机不等。

节点

  • 头节点:Fsched 集群的管理节点,负责接受用户的作业提交、管理节点状态和作业状态。
  • 登陆节点:在一些 HPC 平台中,也称为提交节点,仅用于提交计算作业。
  • 计算节点:用户提交的计算作业实际运行的节点。

分区

分区是作业和节点的逻辑分组,用于将集群中作业和节点划分为不同的子集。每个分区可以包含不同类型的节点,允许用户根据作业需求选择合适的分区进行资源申请。分区的设置可以帮助管理资源分配和访问权限,确保不同用户或作业可以有效利用集群资源。

根据管理员的设置,不同分区的节点既可以是完全独立,也可以互相重叠,用户提交到不同分区的作业则根据调度策略的设置在不同的优先级下运行。

分区在其他 HPC 调度器中也被称为“队列”或者 “Queue”。

作业

作业是用户提交给 Fsched 的计算作业,代表一组资源分配请求和进程执行信息。一个作业可以包含多个作业步骤(job steps),并且可以在多个节点上并行运行。作业的类型包括批处理作业、交互式作业等,用户可以通过不同的命令(如 sbatch、srun 等)提交作业以获取所需的计算资源。