升级文档
升级须知
- 文档目的:升级是一个复杂的过程。在进行升级时,请务必仔细阅读升级文档中的每一项内容,以确保升级后不会对您的业务使用造成影响。
- 适用产品版本:FCP-Core、FCP-Suite和FCP-SE所有产品版本。
- 请务必阅读版本变更须知,并在确认升级方案后,按照升级步骤进行操作。
升级影响
- 管理界面:平台上提供的所有功能将暂时不可用。
- 任务和作业:在升级前通过应用中心提交的任务会中断,在升级前通 过命令行已经提交的作业不受影响。
- 集群管理:Fsched集群使用了Ubuntu22.04操作系统的具体的影响请查看此文档。
升级前准备
- 管理节点:Core和Monitor节点分别留有足够的空间。40G左右, 用于存放新版本安装包。
- 任务管理:确保平台中没有任何已提交未完成状态的任务。此处特指通过应用中心提交的任务。
- 集群管理:所有运行中的集群处于稳定状态。集群处于运行中、已关机、已释放或错误状态。
执行升级步骤
升级后的操作
集群管理
- 因Fsched版本向下兼容,所以需要保证集群中的头节点Fsched版本比计算节点高。如果在升级后,集群中有新增节点的需求,必须将头节点的Fsched升级到最新版本。
- Fsched集群中有使用Ubuntu22.04版本操作系统时,完成升级后请查看此文档重新配置集群。
主机管理
升级后建议对所有的主机进行升级, 以确保主机中服务是最新的。
集群模版
升级后集群模板状态为不可用状态,编辑模板不修改任何配置项,直接点击确认按钮,模板状态变成可用。
其他说明
关键概念
集群: 由多个计算节点组成的系统,旨在提供高性能计算能力。通过将多个计算机连接在一起,集群能够共享资源并并行处理任务,从而提高计算效率和可靠性。所有任务均需提交至FCP平台的集群中,包括Fsched集群和None集群,以满足不同的计算需求。
作业: Fsched中的计算任务在此文档中均称为“作业”。作业是具体的计算单元,在Fsched集群环境中,作业会被提交到集群中。Fsched调度器会根据资源的可用性和优先级对这些作业进行管理,以确保资源的高效利用和作业的顺利调度。
任务: 通过FCP的应用中心提交的“工作流”实例,在本文档中称为任务。每个任务包含一个或多个Fsched作业,代表一系列相互关联的计算步骤。通过FCP平台,任务的设计将复杂的调度命令和脚本操作简化为图形界面操作,使新用户能够更快上手HPC平台,降低使用门槛,方便用户高效地组织和管理计算流程。