跳到主要内容

简介

Fshed是基于开源Slurm调度器(19.05分支)深度优化的派生版本,专为高性能计算场景设计。本指南提供Fsched核心命令的快速参考,帮助用户高效使用集群资源。

适用读者

  • 基础用户:通过本指南快速掌握常用命令
  • 高级用户:需结合Slurm官方文档使用高级功能

常用命令速查

下面是一些最常用的命令:

  • sbatch:提交作业脚本使其运行。此脚本一般也可含有一个或多个 srun 命令启动并行任务。

  • srun:实时交互式运行并行作业,一般用于段时间测试,或者与 sallcocsbatch 结合。

  • salloc :为需实时处理的作业分配资源,典型场景为分配资源并启动一个shell,然后用此shell执行 srun 命令去执行并行任务。

  • sinfo:显示队列或节点状态,具有非常多过滤、排序和格式化等选项。

  • squeue:显示队列中的作业及作业步状态,含非常多过滤、排序和格式化等选项。

  • scancel:取消排队或运行中的作业或作业步,还可用于发送任意信号到运行中的作业或作业步中的所有进程。

  • sacct :显示激活的或已完成作业或作业步的记账(对应需缴纳的机时费)信息。

  • scontrol :显示或设定Slurm作业、队列、节点等状态。

  • sacctmgr:用于管理记账(accounting)数据的命令工具