跳到主要内容
版本:FCP 25.11

集群监控面板

本监控面板为您提供集群运行状态的全面视图,核心功能覆盖资源调度、任务运行与应用许可证授权三大方面,方便您实时掌控集群健康度与资源使用情况。

前提条件

  • 已拥有 FCP 用户门户账号并完成登录。
  • 用户至少有一个被授权的集群,请联系管理员申请相关权限。
  • 用户已具备集群读权限,请联系管理员申请相关权限。

FSCHED资源监控

集群整体资源概览

  • CPU使用率:实时显示该集群中所有计算节点的CPU使用率。
  • 内存使用率:时显示该集群中所有计算节点的内存使用率。

各计算分区资源详情

  • 分区名称:该分区名称,分区唯一标识。
  • 总CPU数:当前该分区内所有计算节点的物理CPU核心总数。
  • 运行CPU数:当前正在执行计算任务的CPU核心数量。
  • 空闲CPU数:当前未分配任务的可用CPU核心数量。
  • 使用率:运行CPU数/总CPU数 * 100%。

计算节点资源详情

  • 节点名称:该分区名称,节点唯一标识。
  • CPU使用:实时统计该节点CPU使用数 / CPU总数。
  • 所属分区:该节点所属分区名称。

任务监控

任务信息字段

  • 任务ID:系统为每个提交的任务自动生成的唯一标识符。
  • 任务名称:用户提交任务时指定的任务名称。
  • 用户:提交该任务的用户账户名称。
  • 状态:任务当前所处的执行阶段(如运行中、排队、完成、失败)。
  • 创建时间:任务被提交到系统的初始时间。
  • 开始时间:任务实际开始执行的时间。
  • 结束时间:任务实际执行完成的时间。
  • 运行时间:任务从开始到结束的实际执行时长。
  • 计算总核数:任务申请的CPU核心总数。
  • GPU数:任务申请的GPU卡数量。

许可证监控

许可证概览

  • 总许可证:某个软件授权给该集群的许可证总数量。
  • 使用中:当前正在被任务使用的许可证数量。
  • 可用:当前可用的剩余许可证数量。
  • 使用用户:当前正在使用该许可证的不同用户数量。
  • 总使用率:许可证整体使用率,反映资源紧张程度。
  • 状态分级:通过颜色标识许可证健康度(严重-红/警告-黄/正常-绿)。

许可证详细列表

  • 许可特性:软件许可证对应的具体功能模块名称。
  • 总数:该特性许可证的总量。
  • 使用中:该特性许可证的使用量。
  • 可用:该特性许可证的剩余量。
  • 使用率:该特性许可证的使用率。
  • 使用用户数:使用该特性许可证的用户数量。
  • 状态:该特性许可证的当前健康状态。

用户许可证使用详情

  • 用户级使用明细:展示每个用户对各个许可特性的具体使用量。
  • 搜索功能:支持按用户名或许可特性名称进行筛选查询。

常见问题

  • 监控面板上显示的CPU和内存使用率数据是最实时的吗?

    • 监控面板中的CPU和内存使用率数据会有一定的采集延迟,通常延迟在1-3分钟左右。这是为了平衡监控精度与系统性能之间的平衡。
  • 许可证使用情况的更新频率是怎样的?

    • 许可证监控数据通常每1-3分钟左右更新一次。当许可证状态发生变化(如从"正常"变为"警告")时,系统会在下一次数据采集后更新显示。