跳到主要内容

qhost

查看集群中主机的状态、资源和负载信息。


参数说明

支持参数列表

选项是否需要值取值范围用途主要差异
(默认)显示所有主机的基本状态和资源信息无差异
-F可选资源属性列表(逗号分隔)显示主机的所有资源属性或指定资源属性。支持25个资源属性m_topologym_topology_inuse 为dummy值 "NONE"
-h主机列表(逗号分隔)仅显示指定主机的信息。支持通配符 *无差异
-j显示主机上运行的作业信息仅显示运行中的作业,master 列为dummy值 "MASTER"
-l资源表达式仅显示满足资源需求的主机支持 arch=, num_proc=, mem_total=, mem_free=
-cb显示核心绑定信息(默认行为)默认显示NSOC/NCOR/NTHR列
-ncb抑制核心绑定相关的列(NSOC, NCOR, NTHR)无差异
-q显示主机上的队列实例信息队列类型为dummy值 "BIP",保留槽位为dummy值 0
-u用户名仅显示有指定用户作业运行的主机无差异
-xml以XML格式输出XML schema与原生SGE略有差异
-help显示帮助信息实现了详细的帮助信息

默认的输出项

输出项功能描述主要差异
HOSTNAME主机名称第一行为 global 且所有字段为 -
ARCH主机架构(如 lx-amd64)离线节点显示 -
NCPUCPU数量离线节点显示 -
NSOCSocket数量离线节点显示 -(使用 -ncb 隐藏)
NCOR每个Socket的核心数离线节点显示 -(使用 -ncb 隐藏)
NTHR每个核心的线程数离线节点显示 -(使用 -ncb 隐藏)
LOAD平均负载保留2位小数,离线节点显示 -
MEMTOT总内存带单位(G/M),离线节点显示 -
MEMUSE已用内存带单位(G/M),离线节点显示 -
SWAPTO总交换空间不带单位,离线节点显示 -
SWAPUS已用交换空间不带单位,离线节点显示 -

-F 选项的资源属性

支持以下25个资源属性,资源前缀为 hl: (host level):

资源名称描述格式说明主要差异
arch主机架构字符串
num_procCPU数量浮点数(6位小数)
mem_total总内存带单位 G
swap_total总交换空间无单位
virtual_total虚拟内存总量(mem + swap)带单位 G
m_topologyCPU拓扑字符串字符串dummy值 "NONE"
m_socketSocket数量浮点数(6位小数)
m_core核心数浮点数(6位小数)
m_thread线程数浮点数(6位小数)
load_avg平均负载浮点数(6位小数)
load_short短期负载(15s)浮点数(6位小数)从fsched r15s获取
load_medium中期负载(1m)浮点数(6位小数)从fsched r1m获取
load_long长期负载(15m)浮点数(6位小数)从fsched r15m获取
mem_free可用内存带单位 G
swap_free可用交换空间无单位
virtual_free可用虚拟内存带单位 G
mem_used已用内存带单位 G
swap_used已用交换空间无单位
virtual_used已用虚拟内存带单位 G
cpuCPU使用率百分比浮点数(6位小数)从load/ncpu计算得出
m_topology_inuse正在使用的CPU拓扑字符串dummy值 "NONE"
np_load_avg归一化平均负载浮点数(6位小数)计算值:load/ncpu
np_load_short归一化短期负载浮点数(6位小数)计算值:r15s/ncpu
np_load_medium归一化中期负载浮点数(6位小数)计算值:r1m/ncpu
np_load_long归一化长期负载浮点数(6位小数)计算值:r15m/ncpu

-j 选项的输出项

显示主机上运行的作业,在主机行下方添加作业列表:

输出项功能描述主要差异
job-ID作业ID
prior作业优先级(0-1)
name作业名称
user作业所属用户
state作业状态仅显示运行中的作业(r
submit/start at提交/开始时间格式化显示
queue队列@主机格式:队列名@节点名
masterMaster/Slave标识dummy值 "MASTER"
ja-task-ID数组作业任务ID非数组作业为空

-q 选项的输出项

显示主机上的队列实例,在主机行下方添加队列列表:

输出项功能描述主要差异
queuename队列名称
qtype队列类型dummy值 "BIP"
used/reserved/total已用/保留/总槽位数reserved 为dummy值 0
states队列状态码从节点状态映射

队列状态码说明

  • (空) - 正常
  • a - alarm(节点DOWN/DRAIN/FAIL)
  • u - unavailable(节点不可用)
  • d - disabled(节点DRAIN)
  • E - error(节点错误状态)

使用示例

示例1:查看所有主机的基本信息

qhost

输出示例

HOSTNAME                ARCH         NCPU NSOC NCOR NTHR  LOAD  MEMTOT  MEMUSE  SWAPTO  SWAPUS
----------------------------------------------------------------------------------------------
global - - - - - - - - - -
node01 lx-amd64 16 2 8 1 2.35 31.3G 12.5G 8192 1024
node02 lx-amd64 32 2 16 1 4.20 62.5G 28.3G 16384 2048

示例2:显示指定主机的资源属性

qhost -h node01 -F mem_total,num_proc,load_avg

输出示例

HOSTNAME                ARCH         NCPU NSOC NCOR NTHR  LOAD  MEMTOT  MEMUSE  SWAPTO  SWAPUS
----------------------------------------------------------------------------------------------
global - - - - - - - - - -
node01 lx-amd64 16 2 8 1 2.35 31.3G 12.5G 8192 1024
hl:mem_total=31.300000G
hl:num_proc=16.000000
hl:load_avg=2.350000

示例3:查看主机上运行的作业

qhost -j

输出示例

HOSTNAME                ARCH         NCPU NSOC NCOR NTHR  LOAD  MEMTOT  MEMUSE  SWAPTO  SWAPUS
----------------------------------------------------------------------------------------------
global - - - - - - - - - -
node01 lx-amd64 16 2 8 1 2.35 31.3G 12.5G 8192 1024
12345 0.50 test_job alice r 01/15/2024 10:30:00 compute@node01 MASTER
12346 0.45 analysis bob r 01/15/2024 11:00:00 compute@node01 MASTER

示例4:按资源过滤主机

qhost -l arch=lx-amd64,num_proc=16

效果:仅显示架构为 lx-amd64 且CPU数量为16的主机。

示例5:查看队列实例信息

qhost -q

输出示例

HOSTNAME                ARCH         NCPU NSOC NCOR NTHR  LOAD  MEMTOT  MEMUSE  SWAPTO  SWAPUS
----------------------------------------------------------------------------------------------
global - - - - - - - - - -
node01 lx-amd64 16 2 8 1 2.35 31.3G 12.5G 8192 1024
compute BIP 4/0/16

示例6:抑制核心绑定列

qhost -ncb

输出示例

HOSTNAME                ARCH         NCPU  LOAD  MEMTOT  MEMUSE  SWAPTO  SWAPUS
----------------------------------------------------------------------------------
global - - - - - - -
node01 lx-amd64 16 2.35 31.3G 12.5G 8192 1024

示例7:过滤特定用户的作业主机

qhost -u alice -j

效果:仅显示有alice用户作业运行的主机,并显示作业信息。

示例8:使用通配符过滤主机

qhost -h "node*"

效果:显示所有以 node 开头的主机。

示例9:XML格式输出

qhost -xml

效果:以XML格式输出主机信息,便于程序解析。