跳到主要内容
版本:FCP 25.11

任务管理

任务管理是FCP平台的核心功能模块,为用户提供从任务提交、监控到执行结果管理的全生命周期管控能力。通过统一的控制台,用户可以高效管理在平台中运行的所有计算任务,确保计算作业的有序执行和资源的合理利用。

权限说明

相关说明,请查看权限说明文档

任务模式概述

平台支持直通任务CWL任务两种核心任务运行模式,以满足不同技术栈和业务场景的需求。更多详细说明请查看应用中心功能介绍

任务提交

1. 前提条件

在提交任务前,请确保您已满足以下权限要求:

  • 拥有所选任务模板的使用权限。
  • 拥有目标计算集群的使用权限。
  • 如需新建集群,需额外拥有新建集群的权限。

2. 选择任务模板

  1. 在任务提交页面,浏览已授权的任务模板。
  2. 根据您的任务模式需求(直通或CWL),选择要使用的任务模板。

3. 输入参数

填写运行参数

  1. 在任务参数页面,填写任务运行所需的参数。
    • 必填参数:必须填写的参数,否则无法提交任务。
    • 可选参数:可根据需要选择填写的参数。
  2. 部分参数可能提供默认值或下拉选项,请根据实际情况填写。

上传数据文件

如果模板中包含文件选择框组件,可通过点击数据文件选择区,选择任务所需的输入文件。

4. 选择资源配置

根据任务需求和您的权限,选择运行此任务的集群资源。可选择现有集群、模板关联集群或在混合云场景下新建集群。更多详细说明请参见下文 选择资源配置 章节。

5. 任务选项(CWL任务特有功能)

  • 日志级别:控制工作流执行过程中日志记录的详细程度,可选“仅错误/警告”或“调试详情”等级别。
  • 移除中间结果:控制工作流对子任务结果的保留策略。关闭为保留子任务输出结果,开启为不保留子任务输出结果。

6. 提交任务

  1. 确认填写的参数无误后,点击“提交”按钮。
  2. 系统将提示任务提交成功,并自动跳转到任务列表界面。

任务列表

列表字段说明

以下是任务列表中各字段的简要说明:

  • 任务ID:系统自动分配的唯一标识,用于精确查找任务。
  • 任务名称:用户为任务设置的易识别名称。
  • 关联集群:运行此任务的计算集群的唯一标识,可以点击跳转到集群管理查看相关信息。
  • 任务模板:任务所使用的预配置模板名称。
  • 状态:任务当前阶段,如“排队中”、“运行中”、“已完成”等状态。
  • 优先级:任务调度的优先等级,数字越大代表优先级越高。
  • 子任务/总数:展示该任务所有子任务总数,以及数字、百分比进度和进度条展示子任务运行进度。(CWL任务特有功能)
  • 分区:任务在集群中分配到的特定资源分区。(直通任务特有功能)
  • 运行节点:实际执行任务的计算节点。(直通任务特有功能)
  • 工作路径:任务在节点上的文件存储目录。(直通任务特有功能)
  • 创建时间:任务被提交到系统的时间。
  • 开始时间:任务实际开始执行的时间。
  • 结束时间:任务执行完成的时间。
  • 排队时间:任务在队列中等待调度的时长,由“开始时间-创建时间”计算得出。(直通任务特有功能)
  • 总耗时:任务从提交到执行完成的总耗时,由“结束时间-创建时间”计算得出。(直通任务特有功能)
  • 计算总核数:执行该任务所使用的CPU总核数。(直通任务特有功能)
  • GPU数:执行该任务所使用的GPU卡数。(直通任务特有功能)
  • 用户名:提交和执行该任务的用户。

关于时间显示:所有时间字段(创建时间、开始时间、结束时间)均会根据您本地电脑的时区设置自动转换并动态显示,方便您直观查看。

搜索与快捷筛选

为帮助您快速定位所需任务,任务列表提供以下搜索与筛选功能:

  • 快捷状态标签:位于列表右上方,提供三种一键筛选视图:(直通任务特有功能)
    • 未完成的任务:仅展示所有处于“排队中”、“运行中”等未结束状态的任务。
    • 已完成的任务:仅展示状态为“已完成”、“失败”或“取消”的任务。
    • 全部任务:展示所有状态的任务,是进入列表时的默认视图
  • 搜索:您可以在列表顶部的搜索框进行精确查找,支持通过任务ID任务名称用户名等关键字段进行搜索,快速定位到具体任务。

远程连接方式

平台支持多种远程连接协议,帮助您快速访问计算节点,实时确认任务执行状态、查看运行环境或进行问题排查:

  • VNC (虚拟网络计算):提供图形化远程桌面访问。适用于需要图形界面进行交互、可视化监控或调试的场景。
  • SSH (安全外壳协议):提供安全的命令行远程访问。适用于需要通过命令行检查进程、查看实时日志、管理文件或执行诊断命令的场景。
  • RDP (远程桌面协议):主要提供Windows操作系统的图形化远程桌面访问。

核心价值:当任务状态异常、输出结果不符合预期或需要交互调试时,直接通过上述方式连接到对应的“运行节点”,即可快速定位和确认问题。

任务操作说明

在任务管理页面,支持对任务执行以下操作: 单个任务操作:

  • 取消:终止排队中或运行中的任务,释放已分配的计算资源。
  • 删除:从任务列表中删除已完成、失败或已取消的任务记录。
  • 移至队首:将排队中的任务调整到队列最前端,使其优先获得资源分配。
  • 挂起:暂停运行中的任务,暂时释放其占用的计算资源但保留任务状态。(直通任务特有功能)
  • 恢复:重新启动被挂起的任务,继续执行计算。(直通任务特有功能)
  • 复制:基于现有任务的配置创建新任务,快速复用参数设置。
  • 查看详情: 点击任务名称,可以查看任务的详细信息,例如任务参数、运行日志、资源使用情况等。

批量操作功能: 平台支持对任务进行高效批量管理,提高运维效率:

  • 批量取消:同时终止多个处于“排队中”或“运行中”状态的任务。
  • 批量挂起:一键暂停多个正在运行的任务,暂时释放计算资源。(直通任务特有功能)
  • 批量删除:同时清理多个已完成、失败或已取消的任务记录。
  • 批量恢复:重新启动多个被挂起的任务,恢复其执行。(直通任务特有功能)

定制列功能

  • 定制列:您可以根据需要自定义任务列表显示的字段,选择只查看最关注的信息列,优化界面布局与信息密度。

任务详情

点击任务列表中的任意任务,可进入该任务的详情页面,获取更全面的信息。直通任务与CWL任务的详情页面结构和信息侧重有所不同。

直通任务详情

直通任务的详情页面通常包含以下信息:

  • 输出文件
    • 任务运行生成的结果文件,支持预览和下载。
    • 平台自动生成用于提交该任务的sbatch脚本。
  • 集群监控:任务执行期间的资源使用情况图表(CPU、内存、GPU等),具体详情介绍请查看集群监控介绍
  • 运行环境:执行任务所在集群的所有节点,展示字段包含:节点主机名称、角色、实例类型(仅云上节点展示)、超线程(仅云上节点展示)、系统卷(GiB)、IP地址、节点状态。
  • 输入参数:任务运行使用的配置参数,输入文件、执行命令等。
  • 日志:任务执行过程中产生的日志信息,支持预览和下载。

CWL任务详情

CWL任务的详情页面通常包含以下信息:

  • 子任务:该任务的所有子任务信息。
    • 展示字段包含任务名称、状态、创建时间、开始时间、结束时间;并支持任务名称、状态、开始时间和结束时间搜索。
    • 界面最上方支持根据成功、失败、已取消和已提交展示子任务数量。
    • 支持点击子任务名称查看子任务输出文件和子任务日志。
  • 子任务数据:该任务的子任务输出文件和日志。
  • 运行环境:执行任务所在集群的所有节点,展示字段包含:节点主机名称、角色、实例类型(仅云上节点展示)、超线程(仅云上节点展示)、系统卷(GiB)、IP地址、节点状态。
  • 输入参数:任务运行使用的配置参数,输入文件、执行命令等。
  • 日志:任务执行过程中产生的日志信息,支持预览和下载。

提示

  1. 对于运行中的任务,日志和集群监控信息会实时更新,方便您动态跟踪任务状态。
  2. 为保证数据隔离与隐私,每位用户仅可查看和下载由自己提交并执行的任务所产生的输入输出文件及日志,无法访问他人任务的文件。

选择资源配置

根据任务需求和您的权限,选择运行此任务的集群资源。平台提供两种方式:

特性选择现有集群新建集群(仅混合云场景)
操作方式从您已有权限的集群列表中选择一个。在云上按需创建全新的专属集群。
配置内容选择集群后,可根据任务需求调整节点数量、分区等参数。需配置实例类型、是否启用超线程、系统卷(GiB)、设置节点数量等完整参数。
启动速度快速,无需等待集群创建。需要等待,通常需要数分钟的集群创建时间。
成本模式固定,使用已有资源,成本清晰可控。按需计费,按实际使用时长付费,任务完成后自动释放云上机器,避免闲置费用。
适用场景常规计算任务、团队共享资源、成本控制优先的任务。现有资源不足、大规模突发计算、特殊硬件/环境需求、需要资源完全隔离的任务。
环境特点共享环境,可能存在资源争抢。专属环境,性能隔离,稳定性高。
权限要求需拥有目标集群的使用权限需拥有新建集群的权限,且平台需开启混合云功能。

现有集群说明

  • 数据说明:所有展示的集群与分区数据均实时从 Fsched调度器 中获取,确保信息的准确性和时效性。
  • 选择集群时,您会看到以下关键指标:
    • 默认分区:标识该分区是否为所在集群的默认调度分区。
    • 空闲的 CPU:当前可立即用于新任务的CPU核心数量。
    • 运行中的 CPU数:当前正在执行任务的CPU核心数量。
    • CPU总量:该集群或分区的CPU核心总数。
    • 空闲的内存(GiB):当前可立即用于新任务的可用内存容量。
    • 内存已分配(GiB):当前已分配给运行中任务的内存容量。
    • 内存总量(GiB):该集群或分区的内存总容量。
    • 运行的计算节点数:当前处于运行状态的计算节点数量。
    • 空闲的计算节点数:当前处于空闲状态、可接收新任务的计算节点数量。

选择建议

  • 优先现有集群:对于常规任务,建议优先选择现有集群,以快速启动并控制成本。
  • 考虑新建集群:当现有集群资源不足、有特殊硬件需求或希望获得专属计算环境时,可选择新建集群。
  • 默认预选:当您拥有多个集群权限时,系统会随机选择一个集群的默认分区作为初始预选项,并展示其资源使用情况,您可直接确认或手动更改。
  • 成本提示:新建集群会产生额外的云资源费用,请根据费用预估和任务预算谨慎选择。

操作步骤

  1. 在“选择资源配置”步骤,查看系统预选的默认集群(如有)及其资源状态。
  2. 根据上述对比和任务需求,决定使用“现有集群”或“新建集群”。
  3. 若选择现有集群,从下拉列表中选择目标集群及分区。
  4. 若选择新建集群,按指引完成实例类型、节点数量、存储等配置。
  5. 确认选择后,进入下一步。