跳到主要内容

bhosts


介绍

bhosts 是一个用于 FSCHED 环境替代 LSF 的 bhosts 工具,显示集群节点的状态信息。支持多种输出格式和主机过滤功能。


参数说明

支持参数列表

选项功能描述主要差异
-a显示所有主机信息,包括资源提供者(如 EGO 或 OpenStack)的主机。未支持资源提供者(如 EGO 或 OpenStack)。
-aff显示 CPU 和内存 affinity 调度的主机拓扑信息。未实现 affinity enable 后的具体拓扑信息。
-alloc显示 slots 数,独占作业和非独占作业显示的 slot 数不同。对独占作业有无 -alloc 都显示节点所有 CPU 数。
-e显示导出到其他集群的资源信息。未实现多集群,所以总显示无导出。
-l以长格式显示主机信息(多行输出)。细节在后面章节列出。
-w以宽格式显示主机信息(字段不截断)。STATUS实现了closed_Busyclosed_Fullclosed_Excl,未实现其他状态(如 closed_Admclosed_Cu_Excl 等)。
-noheader移除输出中的列标题。无差异。
-R仅显示满足资源需求表达式的主机信息。已实现通过mem, slots, status选择,未实现其它select选项。
-V打印版本号。无差异。
-x显示作业退出率高的主机。未实现作业退出率的设置和统计功能,所以总显示无退出率高的主机。
-X显示未压缩的主机组和计算单元输出。未实现主机组和计算单元的设置,所以有无 -X 选项都显示未压缩的输出。
-h显示命令用法。实现了更详细的帮助信息。

默认的输出项

以下选项都是针对节点的,不考虑处理主机组或计算单元的情况。

输出项功能描述主要差异
HOST_NAME主机的名称。未实现host group的显示和lost_and_found节点的显示。
STATUS主机的状态和 sbatchd 守护进程的状态。实现了节点的 okunavailunreachclosed 状态,未实现 closed_Cu_excl 状态。未支持sbatchd 守护进程的状态
JL/U主机在每用户基础上可以处理的最大slot数。- 表示无限制。总显示为-
MAX主机可用的最大作业槽数。- 表示无限制。实现了 MAX 字段。
NJOBS主机上所有调度的作业的任务数。无差异。
RUN主机上所有运行中的作业的任务数。无差异。
SSUSP主机上所有系统挂起的作业的任务数。总显示0。
USUSP主机上所有用户挂起的作业的任务数。实现了挂起作业的计数,但未区分系统挂起和用户挂起。
RSV主机上所有具有保留slot的pending job的task数。lsf需要在lsb.queues中配置SLOT_RESERVE,而当前实现是取的scontrol create reservation创建的reserve,两者含义有区别

-l选项的输出项

输出项功能描述主要差异
STATUS显示主机关闭的原因,包括 closed_Admclosed_Busyclosed_Fullclosed_Excl 等。实现了 closed_Busyclosed_Fullclosed_Excl,未实现其他状态(如 closed_Admclosed_Cu_Excl 等)。
CURRENT LOAD显示主机的总负载和保留负载。目前输出基于节点的总资源,没有统计所有job在节点占用的和保留的资源量。
LOAD THRESHOLD显示节点级别的调度阈值(loadSched)和挂起阈值(loadStop)。未实现节点级别的负载阈值功能,所以这里都显示-
CONFIGURED AFFINITY CPU LIST显示主机配置的 CPU affinity 信息。仅输出 AFFINITY: Disabled,未处理具体的 CPU 列表信息。

host_name过滤条件

过滤项功能描述主要差异
默认无显示所有主机信息无差异
host_name ...显示选择的主机的信息无差异
cluster_name显示选择的集群的节点的信息。未支持多集群,只显示当前集群的节点信息。

使用示例

示例1:默认格式输出

$ bhosts  
HOST_NAME STATUS JL/U MAX NJOBS RUN SSUSP USUSP RSV
host01 ok - 4 2 2 0 0 0
host02 closed - 8 3 1 2 0 0

说明:默认格式以表格形式展示主机名称、状态(如 ok)、运行中的作业数等核心信息。


示例2:长格式输出特定主机

$ bhosts -l host01  
HOST host01
STATUS CPUF JL/U MAX NJOBS RUN SSUSP USUSP RSV DISPATCH_WINDOW
ok 1.0 - 4 2 2 0 0 -

CURRENT LOAD USED FOR SCHEDULING:
r15s r1m r15m ut% pg io ls it tmp swp mem slots
Total ... (详细负载数据)

LOAD THRESHOLD USED FOR SCHEDULING:
... (阈值信息)

说明-l 提供多行详细报告,包含 CPU 负载、调度阈值等高级指标。


示例3:宽格式无标题输出

$ bhosts -w -noheader  
host01 ok - 4 2 2 0 0 0
host02 closed - 8 3 1 2 0 0

注意事项

1. 参数冲突

  • -l-w 和自定义格式(当前未实现)不可同时使用。例如:
    $ bhosts -l -w  
    Error: conflicting output formats

2. 与 LSF 的功能差异说明

  • 不支持的 LSF 参数
    • -o(自定义输出格式)、-a-m 在当前版本暂未实现。如需使用,请联系客户支持团队。
  • 无法显示的 LSF 内容
    • 用户配额在FSCHED无一对一支持,无法显示。
    • 所有的SUSPEND都会被处理为USER SUSPEND

3. 其他说明

  • 主机过滤:通过在命令末尾添加主机名(如 bhosts host01 host02)可限制输出特定节点信息。
  • 字段解释
    • STATUS: 节点状态标识符。
    • NJOBS/RUN/SSUSP/USUSP/RSV: 分别表示总作业数、运行中的作业数、系统挂起的作业数等。