跳到主要内容
版本:FCP 25.02

架构

技术架构

tech_arch

部署架构

FCP_deploy_arch

基本概念

以下是FCP产品部署架构中各个节点/组件的基本概念说明:

  • 管理节点:管理节点包含Core节点和Monitor节点,Monitor节点为可选节点。
    • Core节点:FCP平台核心服务部署节点,集群正常运行依赖的服务,如内置LDAP Server、SlurmDBD等。
    • Monitor节点:可选组件,用于实时监控集群资源使用、任务状态及性能指标,支持数据分析和运维优化。
  • 桌面:提供远程可视化功能的节点。
  • HPC集群:基于Fsched调度器的高性能计算集群,Fsched 集群是由多台节点组成的系统,这些计算机通过网络连接在一起,协同工作以执行计算作业。Fsched 用于管理这些计算资源,确保高效的作业调度和资源分配。集群的规模可以从几台到数千台计算机不等。
    • 分区:分区是作业和节点的逻辑分组,用于将集群中作业和节点划分为不同的子集。根据不用的功能分为头分区、计算分区和登录分区。
    • 头节点:Fsched 集群的管理节点,负责接受用户的作业提交、管理节点状态和作业状态。
    • 登录节点:在一些 HPC 平台中,也称为提交节点,仅用于提交计算作业。
    • 计算节点:用户提交的计算作业实际运行的节点。
  • 独立节点:为特定任务预留的专用节点,不与其他任务共享资源。
  • 外置存储:集中式存储系统,为所有节点提供统一的数据访问空间。
  • 研发工程师:通过桌面或命令行使用集群资源运行计算任务的用户角色。
  • 系统管理员:负责集群部署、维护、监控和故障排查,确保系统稳定运行,管理用户权限和资源分配。