跳到主要内容
版本:FCP 24.08

版本变更须知

本文档记录了升级各版本时的注意事项,在升级前请务必阅读本文档。

关键概念

集群: 由多个计算节点组成的系统,旨在提供高性能计算能力。通过将多个计算机连接在一起,集群能够共享资源并并行处理任务,从而提高计算效率和可靠性。所有任务均需提交至FCP平台的集群中,包括Fsched集群和None集群,以满足不同的计算需求。

作业: Fsched中的计算任务在此文档中均称为“作业”。作业是具体的计算单元,在Fsched集群环境中,作业会被提交到集群中。Fsched调度器会根据资源的可用性和优先级对这些作业进行管理,以确保资源的高效利用和作业的顺利调度。

任务: 通过FCP的应用中心提交的“工作流”实例,在本文档中称为任务。每个任务包含一个或多个Fsched作业,代表一系列相互关联的计算步骤。通过FCP平台,任务的设计将复杂的调度命令和脚本操作简化为图形界面操作,使新用户能够更快上手HPC平台,降低使用门槛,方便用户高效地组织和管理计算流程。

升级影响

  • FCP平台网页管理界面提供的所有功能将暂时不可用。
  • 在升级前通过WEB界面应用中心提交的任务会中断;在升级前通过命令行已经提交的作业不受影响。
  • 对使用Ubuntu22.04的Fsched集群具体的影响请查看此文档

因此,用户需提前申请升级窗口,通常升级过程在1小时内完成。升级后所需时间将根据处理数据量而异,建议用户在申请时考虑数据规模,以便合理安排后续工作。

升级前要求

管理节点

  • core节点留有足够的空闲空间(40G左右, 用于存放新版本安装包。如果产品版本为FCP-Suite或FCP-SE, 还需要确保monitor节点留有足够空间)。

任务管理

  • 升级时正在运行中的任务会中断,在升级前请确认无正在运行中的任务。

集群管理

  • 集群状态:环境中集群都处于稳定状态(集群状态在运行中或错误状态)。
  • 负载阈值要求:本版本中,Fsched改变了负载阈值的实现方式,提供了更稳定的管理能力。如果您的集群依赖负载阈值功能,请确保将 fsched 升级,否则将导致集群配置异常。如果暂时无法升级,请考虑关闭该功能。

环境配置

  • 通知配置
    在新版本中, 对通知配置进行了优化, 将SMTP端口配置修改为SSL和非SSL选项。
    升级后, 将使用您在旧版本中配置的SSL端口以启用SMTP SSL功能, 请确认在旧版本中配置的端口是正确的。
    要查看相关配置, 请通过配置管理员登录配置界面并切换到通知配置选项卡中。

升级后要求

集群管理

  • Fsched版本要求: 因Fsched版本向下兼容,所以需要保证头节点的Fsched版本比计算节点高。如果在升级后,集群中有新增节点的需求,必须将头节点的Fsched升级到最新版本。

  • 使用Ubuntu22.04版本的集群要求: 请在完成升级后查看此文档重新配置集群

主机管理

  • 升级后建议对所有的主机进行升级, 以确保主机中服务是最新的。

集群模版

  • 升级后集群模板状态为不可用状态,编辑模板不修改任何配置项,直接点击确认按钮,模板状态变成可用。

请务必在升级后检查系统的功能和性能,以确保FCP平台正常工作。