跳到主要内容

bmod

介绍

bmod用于修改已提交作业的参数。

注意
  • 任务运行时减少申请的资源,不会减少任务实际使用的资源,所以其它job运行后可能会使节点资源负载过高

参数说明

选项功能描述主要差异
-help打印命令用法并退出实现了更详细的帮助信息
-V打印版本号无差异
-version打印版本信息无差异
-G修改用户组名对应account字段
-Gn取消用户组名设置无差异
-P修改项目名称对应wckey字段
-Pn取消项目名称设置无差异
-r启用自动重新排队无差异
-rn禁用自动重新排队无差异
-w修改作业依赖关系支持done(id)ended(id)exit(id,code)形式
-wn取消作业依赖关系无差异
-cwd修改作业工作目录无差异
-cwdn取消工作目录设置无差异
-o修改标准输出文件(追加模式)无差异
-on取消标准输出文件设置无差异
-oo修改标准输出文件(覆盖模式)无差异
-sp修改作业优先级无差异
-spn取消作业优先级设置无差异
-J修改作业名称无差异
-Jd修改作业描述无差异
-Jdn取消作业描述无差异
-Jn取消作业名称设置无差异
-R完全替换资源需求规格仅支持rusage[mem=X](内存MB)、rusage[tmp=X](临时磁盘MB)、span[ptile=X](每节点任务数)、span[hosts=X](节点数)
-Rn取消资源需求设置无差异
-x设置独占节点分配无差异
-xn取消独占节点分配无差异
-m修改执行主机列表无差异
-mn取消执行主机列表设置无差异
-n修改任务数量(min_tasks[,max_tasks])无差异
-nn取消任务数量设置无差异
-q修改队列名称无差异
-qn取消队列名称设置无差异
-U修改预留名称无差异
-Un取消预留设置无差异
-b修改作业开始时间无差异
-bn取消作业开始时间设置无差异
-t修改作业终止截止时间无差异
-tn取消终止截止时间设置无差异
-W修改运行时间限制([hour:]minute)无差异
-We设置预估运行时间([hour:]minute)无差异
-We+增加运行时间([hour:]minute)在当前TimeLimit基础上增加
-Wen取消预估运行时间设置无差异
-Wep按百分比延长运行时间按当前TimeLimit的百分比延长
-Wn取消运行时间限制设置无差异

job_id参数

参数格式功能描述主要差异
job_ID修改指定ID的作业无差异
job_ID[index]修改数组作业的指定任务无差异
job_ID[start-end]修改数组作业的指定范围任务无差异

集群配置

修改以下配置,以使用支持更改运行中任务资源请求的插件select/cons_tres_ex

SelectType=select/cons_tres_ex

运行中作业修改限制

对于运行中(RUNNING状态)的作业,bmod仅支持修改以下参数:

参数类别支持的选项说明
内存资源-R "rusage[mem=X]"修改内存需求
时间限制-W, -We, -We+, -Wep, -Wn, -Wen修改运行时间限制
重新排队-r, -rn启用/禁用自动重新排队

对于等待中(PENDING状态)的作业,可以修改所有支持的参数。

对于已完成的作业,无法修改任何参数。

使用示例

  1. 修改运行中作业的内存需求

    [root@head-1 ~]# bsub -R "rusage[mem=8000]" sleep 300
    Job <303> is submitted to default queue.
    [root@head-1 ~]# bsub -R "rusage[mem=8000]" sleep 300
    Job <304> is submitted to default queue.
    [root@head-1 ~]# bjobs
    JOBID USER STAT QUEUE FROM_HOST EXEC_HOST JOB_NAME SUBMIT_TIME
    303 root RUN partition- head-1 compute-1 sleep 300 Dec 5 14:52
    304 root PEND partition- head-1 sleep 300 Dec 5 14:52
    [root@head-1 ~]# bmod -R "rusage[mem=1000]" 303
    Parameters of job <303> are being changed
    [root@head-1 ~]# bjobs -l

    Job <303>, User <root>, Project <*>, Status <RUN>, Queue <partition-9C3RA>, Command <sleep
    300>
    Dec 5 14:52: Submitted from host <head-1>, CWD </root>, Output File </dev/null>, Error File
    </dev/null>, Requested Resources <rusage[mem=1000]>;
    Dec 5 14:52: Started 1 Task(s) on Host(s) <compute-1>, Allocated 1 Slot(s) on Host(s)
    <compute-1>, Execution Home </root>, Execution CWD </root>
    Dec 5 14:55: Resource usage collected.
    MEM: 0 Mbytes; NTHREAD: 3
    PGID: 16165; PIDS: 16165
    PGID: 16172; PIDS: 16172 16174

    MEMORY USAGE:
    MAX MEM: 0 Mbytes
    ------------------------------------------------------------------------------

    Job <304>, User <root>, Project <*>, Status <RUN>, Queue <partition-9C3RA>, Command <sleep
    300>
    Dec 5 14:52: Submitted from host <head-1>, CWD </root>, Output File </dev/null>, Error File
    </dev/null>, Requested Resources <rusage[mem=8000]>;
    Dec 5 14:53: Started 1 Task(s) on Host(s) <compute-1>, Allocated 1 Slot(s) on Host(s)
    <compute-1>, Execution Home </root>, Execution CWD </root>
    Dec 5 14:55: Resource usage collected.
    MEM: 0 Mbytes; NTHREAD: 3
    PGID: 16192; PIDS: 16192
    PGID: 16199; PIDS: 16199 16201

    MEMORY USAGE:
    MAX MEM: 0 Mbytes
  2. 修改作业名称

    bmod -J "new_name" 12345
  3. 修改作业队列

    bmod -q normal 12345
  4. 修改临时磁盘需求

    bmod -R "rusage[tmp=10240]" 12345
  5. 修改作业依赖关系

    bmod -w "done(12344)" 12345
  6. 启用自动重新排队

    bmod -r 12345
  7. 修改运行时间限制

    bmod -W 120 12345