跳到主要内容
版本:FCP 25.02

集群分析

“集群分析”模块提供对集群历史运行作业进行查询和分析的功能,获取集群硬件资源使用情况、作业统计分析等信息,为系统调优、调度策略选择、集群扩容等方面提供最直接、可靠的参考依据。

集群分析包括查询、分析和资源列表三种类型的面板。

查询面板

  • 一定时间内已完成的作业执行时间:支持选择集群和最新完成时间
  • 等待&运行中作业:展示JOB的提交用户,提交时间 ,申请的CPU/内存资源,等待时间,支持按用户,作业名,执行主机,执行分区来进行筛选
  • 己完成作业的:展示JOB的提交用户,提交时间 ,执行时间,CPU占用时间,申请的CPU/内存资源,执行主机,分区,作业状态,支持按用户,作业名,执行主机,执行分区,作业状态来进行筛选
  • 用户作业状态查询:展示集群内用户待分配,运行中,己完成,己失败的Job数量,支持按用户筛选
  • 作业列表:展示集群内所有的作业列表,支持以集群、分区、状态、作业ID等筛选作业

分析面板

  • 内存指定不合理的作业:默认展示内存差值百分比50%的作业(申请内存与实际内存使用差)或内存差值大于1G的作业(申请内存和实际使用最大内存差),支持指定内存差值、内存差值百分比
  • 异常退出的作业:展示退出状态码为非0的作业
  • 用户用量统计:按时间统计用户CPU的用量
  • CPU指定不合理的作业:默认展示CPU差值百分比大于100%,小于50%的作业(CPU差值为申请的CPU与实际占用的CPU百分比),可根据实际需要调整差值进行筛选
  • 集群等待中的作业平均等待时长:支持选择集群和时间
  • 分区等待中的作业平均等待时长:支持选择集群和时间
  • 分区中已完成的作业数量:支持选择集群和时间

集群列表

导航页展示HPC集群列表对应的资源使用情况

集群主机列表

导航页展示集群主机列表对应的主机资源使用情况