跳到主要内容

⭐️sinfo

简介

sinfo 是 Slurm 系统中用于查看集群队列和节点状态的命令:

  • 显示分区(partition)信息
  • 查看节点资源状态
  • 监控系统负载情况

常用参数

参数说明示例
-a, --all显示所有分区sinfo -a
-l, --long 显示详细信息sinfo -l
-N, --Node按节点显示sinfo -N
-p, --partition=PARTITION指定分区sinfo -p gpu
-t, --states=node_state按状态筛选sinfo -t idle
-o, --format=format自定义输出格式sinfo -o "%P %a %D %T"
-S, --sort=fields排序输出sinfo -S +P,-m
-i, --iterate=seconds间隔刷新sinfo -i 5 (5秒刷新)

使用示例

查看分区状态

# sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
compute* up infinite 1 down* ip-10-10-2-109
compute* up infinite 2 mix ip-10-10-2-[70,80]

其中PARTITION表示分区,NODES表示节点数,NODELIST为节点列表,STATE表示节点运行状态。其中,idle表示节点处于空闲状态,allocated表示节点已经分配了一个或多个作业。

查看分区详细信息

sinfo -l 支持显示更多信息:

# sinfo -l
PARTITION AVAIL TIMELIMIT JOB_SIZE ROOT OVERSUBS GROUPS NODES STATE NODELIST
compute* up infinite 1-infinite no NO all 2 mixed compute[1-2]

查看节点详细信息

sinfo -Nl以每行一个节点方式显示信息,即显示各节点信息:

# sinfo -Nl
NODELIST NODES PARTITION STATE CPUS S:C:T MEMORY TMP_DISK WEIGHT
node1 1 compute* idle 16 2:8:1 64000 0 1
node2 1 compute* alloc 16 2:8:1 64000 0 1

输出字段详解

  • AVAIL:up表示可用,down表示不可用。

  • CPUS:各节点上的CPU数。

  • S:C:T:各节点上的CPU插口sockets(S)数(CPU颗数,一颗CPU含有多颗CPU核,以下类似)、CPU核cores(C)数和线程threads(T)数。

  • SOCKETS:各节点CPU插口数,CPU颗数。

  • CORES:各节点CPU核数。

  • THREADS:各节点线程数。

  • GROUPS:可使用的用户组,all表示所有组都可以用。

  • JOB_SIZE:可供用户作业使用的最小和最大节点数,如果只有1个值,则表示最大和最小一样,infinite表示无限制。

  • TIMELIMIT:作业运行墙上时间(walltime,指的是用计时器,如手表或挂钟,度量的实际时间)限制,infinite表示没限制,如有限制的话,其格式为“days-hours:minutes:seconds”。

  • MEMORY:实际内存大小,单位为MB。

  • NODELIST:节点名列表,格式类似node[1-10,11,13-28]。

  • NODES:节点数。

  • NODES(A/I):节点数,状态格式为“available/idle”。

  • NODES(A/I/O/T):节点数,状态格式为“available/idle/other/total”。

  • PARTITION:队列名,后面带有*的,表示此队列为默认队列。

  • ROOT:是否限制资源只能分配给root账户。

  • OVERSUBSCRIBE:是否允许作业分配的资源超过计算资源(如CPU数):

    • no:不允许超额。
    • exclusive:排他的,只能给这些作业用(等价于 srun --exclusive )。
    • force:资源总被超额。
    • yes:资源可以被超额。
  • STATE:节点状态,可能的状态包括:

    • allocated、alloc:已分配。
    • completing、comp:完成中。
    • down:宕机。
    • drained、drain:已失去活力。
    • draining、drng:失去活力中。
    • fail:失效。
    • failing、failg:失效中。
    • future、futr:将来可用。
    • idle:空闲,可以接收新作业。
    • maint:保持。
    • mixed:混合,节点在运行作业,但有些空闲CPU核,可接受新作业。
    • perfctrs、npc:因网络性能计数器使用中导致无法使用。
    • power_down、pow_dn:已关机。
    • power_up、pow_up:正在开机中。
    • reserved、resv:预留。
    • unknown、unk:未知原因。

    注意,如果状态带有后缀*,表示节点没响应。

  • TMP_DISK:/tmp所在分区空间大小,单位为MB。