集群监控面板
本监控面板为您提供集群运行状态的全面视图,核心功能覆盖资源调度、任务运行与应用许可证授权三大方面,方便您实时掌控集群健康度与资源使用情况。
前提条件
- 已拥有 FCP 用户门户账号并完成登录。
- 用户至少有一个被授权的集群,请联系管理员申请相关权限。
- 用户已具备集群读权限,请联系管理员申请相关权限。
FSCHED资源监控
集群整体资源概览
- CPU使用率:实时显示该集群中所有计算节点的CPU使用率。
- 内存使用率:时显示该集群中所有计算节点的内存使用率。
各计算分区资源详情
- 分区名称:该分区名称,分区唯一标识。
- 总CPU数:当前该分区内所有计算节点的物理CPU核心总数。
- 运行CPU数:当前正在执行计算任务的CPU核心数量。
- 空闲CPU数:当前未分配任务的可用CPU核心数量。
- 使用率:运行CPU数/总CPU数 * 100%。
计算节点资源详情
- 节点名称:该分区名称,节点唯一标识。
- CPU使用:实时统计该节点CPU使用数 / CPU总数。
- 所属分区:该节点所属分区名称。
任务监控
任务信息字段:
- 任务ID:系统为每个提交的任务自动生成的唯一标识符。
- 任务名称:用户提交任务时指定的任务名称。
- 用户:提交该任务的用户账户名称。
- 状态:任务当前所处的执行阶段(如运行中、排队、完成、失败)。
- 创建时间:任务被提交到系统的初始时间。
- 开始时间:任务实际开始执行的时间。
- 结束时间:任务实际执行完成的时间。
- 运行时间:任务从开始到结束的实际执行时长。
- 计算总核数:任务申请的CPU核心总数。
- GPU数:任务申请的GPU卡数量。
许可证监控
许可证概览
- 总许可证:某个软件授权给该集群的许可证总数量。
- 使用中:当前正在被任务使用的许可证数量。
- 可用:当前可用的剩余许可证数量。
- 使用用户:当前正在使用该许可证的不同用户数量。
- 总使用率:许可证整体使用率,反映资源紧张程度。
- 状态分级:通过颜色标识许可证健康度(严重-红/警告-黄/正常-绿)。
许可证详细列表
- 许可特性:软件许可证对应的具体功能模块名称。
- 总数:该特性许可证的总量。
- 使用中:该特性许可证的使用量。
- 可用:该特性许可证的剩余量。
- 使用率:该特性许可 证的使用率。
- 使用用户数:使用该特性许可证的用户数量。
- 状态:该特性许可证的当前健康状态。
用户许可证使用详情
- 用户级使用明细:展示每个用户对各个许可特性的具体使用量。
- 搜索功能:支持按用户名或许可特性名称进行筛选查询。
常见问题
-
监控面板上显示的CPU和内存使用率数据是最实时的吗?
- 监控面板中的CPU和内存使用率数据会有一定的采集延迟,通常延迟在1-3分钟左右。这是为了平衡监控精度与系统性能之间的平衡。
-
许可证使用情况的更新频率是怎样的?
- 许可证监控数据通常每1-3分钟左右更新一次。当许可证状态发生变化(如从"正常"变为"警告")时,系统会在下一次数据采集后更新显示。