跳到主要内容
版本:FCP 24.05

集群分析

“集群分析”模块提供对集群历史运行作业进行查询和分析的功能,获取集群硬件资源使用情况、作业统计分析等信息,为系统调优、调度策略选择、集群扩容等方面提供最直接、可靠的参考依据。

集群分析包括查询、分析和资源列表三种类型的面板。

查询面板

查询面板包括

  • 一定时间内已完成的JOB执行时间:支持选择集群和最新完成时间
  • 等待&运行中的Job查询,展示JOB的提交用户,提交时间 ,申请的CPU/内存资源,等待时间,支持按用户,作业名,执行主机,执行分区来进行筛选
  • 己完成的JOB查询,展示JOB的提交用户,提交时间 ,执行时间,CPU占用时间,申请的CPU/内存资源,执行主机,分区,作业状态,支持按用户,作业名,执行主机,执行分区,作业状态来进行筛选
  • 用户JOB查询, 展示集群内用户待分配,运行中,己完成,己失败的Job数量,支持按用户筛选
  • 作业列表,展示集群内所有的作业列表,支持以集群、分区、状态、作业ID等筛选作业

分析面板

分析面板包括:

  • 内存指定不合理的JOB,展示申请内存和实际使用最大内存差大于10G或申请内存与实际内存使用差超过50%,支持指定内存差值
  • 异常退出的JOB,显示退出状态码为非0的任务
  • 用户用量统计,按时间统计用户CPU的用量
  • CPU指定不合理的JOB,显示申请的CPU与实际占用CPU差值超过50%的任务

集群列表

导航页展示HPC集群列表对应的资源使用情况

集群主机列表

导航页展示集群主机列表对应的主机资源使用情况