集群分析
“集群分析”模块提供对集群历史运行作业进行查询和分析的功能,获取集群硬件资源使用情况、作业统计分析等信息,为系统调优、调度策略选择、集群扩容等方面提供最直接、可靠的参考依据。
集群分析包括查询、分析和资源列表三种类型的面板。
查询面板
查询面板包括
- 一定时间内已完成的JOB执行时间:支持选择集群和最新完成时间
- 等待&运行中的Job查询,展示JOB的提交用户,提交时间 ,申请的CPU/内存资源,等待时间,支持按用户,作业名,执行主机,执行分区来进行筛选
- 己完成的JOB查询,展示JOB的提交用户,提交时间 ,执行时间,CPU占用时间,申请的CPU/内存资源,执行主机,分区,作业状态,支持按用户,作业名,执行主机,执行分区,作业状态来进行筛选
- 用户JOB查询, 展示集群内用户待分配,运行中,己完成,己失败的Job数量,支持按用户筛选
- 作业列表,展示集群内所有的作业列表,支持以集群、分区、状态、作业ID等筛选作业
分析面板
分析面板包括:
- 内存指定不合理的JOB,展示申请内存和实际使用最大内存差大于10G或申请内存与实际内存使用差超过50%,支持指定内存差值
- 异常退出的JOB,显示退出状态码为非0的任务
- 用户用量统计,按时间统计用户CPU的用量
- CPU指定不合理的JOB,显示申请的CPU与实际占用CPU差值超过50%的任务
集群列表
导航页展示HPC集群列表对应的资源使用情况
集群主机列表
导航页展示集群主机列表对应的主机资源使用情况