版本变更须知
本文档记录了升级各版本时的注意事项,在升级前请务必阅读本文档。
关键概念
集群: 由多个计算节点组成的系统,旨在提供高性能计算能力。通过将多个计算机连接在一起,集群能够共享资源并并行处理任务,从而提高计算效率和可靠性。所有任务均需提交至FCP平台的集群中,包括Fsched集群和None集群,以满足不同的计算需求。
作业: Fsched中的计算任务在此文档中均称为“作业”。作业是具体的计算单元,在Fsched集群环境中,作业会被提交到集群中。Fsched调度器会根据资源的可用性和优先级对这些作业进行管理,以确保资源的高效利用和作业的顺利调度。
任务: 通过FCP的应用中心提交的“工作流”实例,在本文档中称为任务。每个任务包含一个或多个Fsched作业,代表一系列相互关联的计算步骤。通过FCP平台,任务的设计将复杂的调度命令和脚本操作简化为图形界面操作,使新用户能够更快上手HPC平台,降低使用门槛,方便用户高效地组织和管理计算流程。
升级影响
- FCP平台网页管理界面提供的所有功能将暂时不可用。
- 在升级前通过WEB界面应用中心提交的任务会中断;在升级前通过命令行已经提交的作业不受影响。
- 对使用Ubuntu22.04的Fsched集群具体的影响请查看此文档。
因此,用户需提前申请升级窗口,通常升级过程在1小时内完成。升级后所需时间将根据处理数据量而异,建议用户在申请时考虑数据规模,以便合理安排后续工作。
升级前要求
管理节点
- core节点留有足够的空闲空间(40G左右, 用于存放新版本安装包。如果产品版本为FCP-Suite或FCP-SE, 还需要确保monitor节点留有足够空间)。
任务管理
- 升级时正在运行中的任务会中断,在升级前请确认无正在运行中的任务。
集群管理
- 集群状态:环境中集群都处于稳定状态(集群状态在运行中或错误状态)。
- 负载阈值要求:本版本中,Fsched改变了负载阈值的实现方式,提供了更稳定的管理能力。如果您的集群依赖负载阈值功能,请确保将 fsched 升级,否则将导致集群配置异常。如果暂时无法升级,请考虑关闭该功能。
环境配置
- 通知配置:
在新版本中, 对通知配置进行了优化, 将SMTP端口配置修改为SSL和非SSL选项。
升级后, 将使用您在旧版本中配置的SSL端口以启用SMTP SSL功能, 请确认在旧版本中配置的端口是正确的。
要查看相关配置, 请通过配置管理员登录配置界面并切换到通知配置选项卡中。
升级后要求
集群管理
-
Fsched版本要求: 因Fsched版本向下兼容,所以需要保证头节点的Fsched版本比计算节点高。如果在升级后,集群中有新增节点的需求,必须将头节点的Fsched升级到最新版本。
-
使用Ubuntu22.04版本的集群要求: 请在完成升级后查看此文档重新配置集群。
主机管理
- 升级后建议对所有的主机进行升级, 以确保主机中服务是最新的。
集群模版
- 升级后集群模板状态为不可用状态,编辑模板不修改任何配置项,直接点击确认按钮,模板状态变成可用。
请务必在升级后检查系统的功能和性能,以确保FCP平台正常工作。