跳到主要内容

scontrol

简介

scontrol 是 Slurm 系统中用于系统控制和配置管理的命令工具:

  • 查看和修改 Slurm 配置
  • 管理作业、节点、分区等资源
  • 需要管理员权限执行多数操作
  • 提供实时系统状态查看功能

常用参数

功能命令示例说明
作业管理
查看作业scontrol show job <jobid>显示作业详情
作业扩展信息scontrol show job_ex <jobid>显示job的额外信息
修改作业scontrol update jobid=123 ...修改作业参数
取消作业scontrol kill <jobid>终止运行中的作业
节点管理
查看节点scontrol show node <node>显示节点详情
修改节点scontrol update nodename=node01 ...更新节点配置
下线节点scontrol update nodename=node01 state=DRAIN将节点设为维护状态
分区管理
查看分区scontrol show partition <name>显示分区配置
修改分区scontrol update partition=debug ...更新分区参数
其他功能
查看配置scontrol show config显示系统配置
查看许可证scontrol show lic显示许可证状态

使用示例

作业管理

查看作业扩展信息

scontrol show job_ex 12345

扩展信息说明

字段描述
RespHost交互式作业请求的主机名
Port分配响应端口(alloc_resp_port)
OtherPort其他端口(用于接收如SRUN_PING等通知)
LastActivity作业分配的最后活跃时间(job last_time_active)

修改作业参数

scontrol update jobid=12345 TimeLimit=1-12:00:00

修改作业优先级

scontrol update jobid=12345 Priority=1000

终止作业

scontrol kill 12345 "Maintenance required"

节点控制

将节点设为维护状态

scontrol update nodename=node01 state=DRAIN reason="Hardware upgrade"

恢复节点

scontrol update nodename=node01 state=RESUME

分区控制

修改分区状态

scontrol update partition=debug state=UP

设置分区节点权重

scontrol update partition=debug weight=100

状态管理

节点状态类型

状态说明
IDLE节点空闲可用
ALLOC节点已分配
MIXED节点部分分配
DRAIN节点维护中
FAIL节点故障
DOWN节点下线

分区状态类型

状态说明
UP分区可用
DOWN分区不可用
DRAIN分区维护中

注意事项

  • 多数修改操作需要管理员权限
  • 修改配置可能影响系统运行,建议在维护窗口操作
  • 节点状态变更可能需要时间生效
  • 部分修改可能需要同步更新slurm.conf配置文件
  • 生产环境操作前建议先测试

📌 最佳实践

  • 重要操作前先查看当前状态:scontrol show <entity>
  • 修改配置后验证:scontrol reconfigure
  • 维护操作记录原因:scontrol update ... reason="<详细说明>"
  • 批量操作使用节点范围表达式:node[01-08,12]