跳到主要内容

版本说明

Fsched 10.106

更新时间:2025.12.31

  • slurm:
    • 新增license服务器监控和当前集群license分配管理功能
    • 新增自适应调度功能
    • 分区新增 AllowUsers 参数
    • 增强 fsched_list_job() 以支持更多分页选项
    • 新增“按作业”和“按用户”的 QoS 拒绝行为
    • 将 wckey 输入长度限制为 42 个字符
    • 为作业检查点和恢复操作添加 checkpoint/criu 插件(支持增量检查点、预转储、负载感知延迟)
    • 增强 cli_filter 以支持wrapper及自定义字段API
    • 修复问题:
      • 修复当用户提交任务时未使用 -c 参数指定CPU核心数,在 slurmctld 服务重启后,任务的核心数信息被错误存储为 0xfffe 所导致的 CPUsPerTask 显示异常和 bjobs 命令输出错误的问题
      • 修复 sview、cpus_per_task 持久化、gres_detail_str 导致的崩溃等问题
  • wrapper:
    • 支持动态许可证记账
    • 增强 fslsproc 以支持树状显示和冲突检测
    • 支持btopbbot 命令来更改作业顺序
    • 支持 bpeek 查看运行中批处理作业的 stdout/stderr
    • 添加 fsopt ,支持 bsubqsubsbatchsrun命令;支持交互式命令和批处理命令
    • 增强 lshosts,支持 -l、-T、-a、-R 选项,并按主机或集群筛选。
    • 支持 fsquota 命令以显示资源配额和限制
      • 显示记账关联限制和 QoS 策略
      • 显示当前资源使用情况(作业、CPU、内存、节点、GPU)
      • 支持按用户、账户和 QoS 筛选
      • 提供 JSON 输出格式以便编程访问
    • 新增 cli_filter适配器兼容 LSF 和 SGE
      • 支持 bsub、qsub、qsh、qrsh 命令
      • 添加自定义字段以区分 wrapper 作业和原生 SLURM 命令
      • 添加全面的文档(user guide, design, custom fields)
    • 新增 -json 选项以支持 JSON 输出格式
      • 新增 6 个自定义输出字段:accountrequeuetmp_diskmin_nodesmax_nodesntasks_per_node
      • 将自定义字段支持扩展到总计 86 个字段名(71 个标准字段 + 15 个别名)
      • 改进字段格式化以及与 LSF 的兼容性
      • 重构内部实现以提高可维护性
    • 增强 statesvc 服务的 ListJobs API,增加强制刷新选项
    • bsub
      • 添加 -env 选项,支持完整的 LSF 语法(all/none/selective/exclusion/assignment)
      • 支持 -H(挂起作业)、-Ne(退出通知)、-ti(孤儿进程终止)参数
      • 支持 ulimit, 支持 (-M, -C, -c, -D, -F, -S, -v, -p, -T, -ul)
      • 支持 fsiod:原生 x11/stdio 转发系统。(实验性)优势:1.占用空间小,完全异步,2.行为与 LSF 保持一致,3. srun -x11 性能提升约10%
      • bsub -w命令支持使用 JOBNAME 作为作业判断条件,以便在脚本中直接依据 JOBNAME 来查询作业状态
        • 支持 done(job_name)ended(job_name)exit(job_name)started(job_name) 语法
    • 修复问题:
      • 修复 qacct 没有做服务端的用户过滤,每次获取都会全量数据,导致浪费带宽和内存等资源占用过高问题
      • 修复 qacct 没有指定job id时只是获取数据,没有输出结果的问题
      • 修复 qacct 分页查询服务器数据的问题
      • 修复 fsjobs 默认仅输出当前用户作业的问题

Fsched 10.96

更新时间:2025.09.25

  • slurm:

    • fsched ping:增加检查处于 pending 状态的作业
    • fsched list jobs API:增加 comment、wckey、group_id、node_name筛选条件
    • 移除 CgroupAutomount 配置选项的错误日志
    • 增加作业提交插件 job_submit/intelliparams
    • 将 CR_LLN "load" 改为使用比率而非可用 CPU 数
    • 增加 FairshareUsed 因子,该因子根据已用资源计算
    • ​​为 sshare 增加 --ext选项以包含 FairshareUsed 字段
    • 为 sprio 增加 --ext选项以包含 FairshareUsed 字段
    • 修复问题:
      • 移除在加载job信息时的主动加载,以避免slurmd挂起
      • 在批处理job绑定时使用通用的_get_avail_map,修复在终止job请求中的节点顺序问题
      • 获取作业详情时使用连接/发送/接收超时设置,以修复 statesvc 卡住的问题
      • 移除 "_access" 检查,以修复使用 root_squash 时 prolog 和 epilog 任务权限被拒绝的问题
      • 在 _job_test中不对节点名进行排序,以修复 CPU 绑定问题
      • 修复 slurmctld 在自动扩缩容期间因竞争条件而崩溃的问题
      • 调整task cgroup错误的log level
  • wrapper​​:

    • 新增 bswitch 命令,用于将等待中的作业切换到另一个队列
    • 新增 bstop 命令,用于停止正在运行的作业
    • 新增 bresume 命令,用于恢复已停止的作业
    • 新增 bhist 命令,用于显示作业的历史信息
    • 新增 lsinfo 命令
    • bhosts: 增加 -a, -aff, -alloc, -e, -x, -X, -R选项;增加按 cluster_name 过滤;修复 -l, -m选项中的状态显示
    • lsload: 增加 -I, -w, -l, -N, -E, -R, -a选项,增加按主机或集群过滤
    • statesvc: 增加扩展的节点列表 (expanded nodelists)
    • 支持 bsub -G选项映射到 slurm account中
    • 支持 fscgdet 在 cgroup v1 和 v2 上均可工作
    • statesvc: 为 intelliparams 增加作业额外信息 (job extra)
    • bjobs:
      • 改为使用 fsched API(服务端过滤)来加载作业信息
      • ​​增加start time和finish time字段
    • bqueues:
      • 增加 -m cluster_name选项
      • 在 -l选项中增加 loadSched/loadStop 信息
      • 增加 -alloc选项
      • 增加 -u user,all选项
      • 增加 JL/U, JL/H 的输出
    • 修复问题​:
      • 修复 bsub -I未能正确转发命令参数的问题,修复 bsub -Ep权限问题
      • bjobs: 修复 -A, -UF,修复按 array_job_id 列表显示,修复内存使用显示,在 -l选项中增加作业描述、调度参数和资源需求详情
      • bqueues:
        • 修复 -l选项中的调度参数显示
        • 修复多task的job
        • 修复-m all
        • 修复分区或者主机找不到时的错误信息和错误码
        • 修复-l中的Users

Fsched 10.77

更新时间:2025.03.14

  • 支持使用 cgroup v2 的系统
  • 增加基于CPU负载的LoadStop/LoadSched参数设置
  • bjobs -l 命令支持显示其他用户提交的任务信息
  • 一些已知问题的修复

Fsched 10.62

更新时间:2024.12.13

  • 支持配置多个分区管理员,授权其取消分区内任意任务,并控制分区任务接收状态(启用/停止)
  • 支持分区级别设置最大可用CPU数
  • QOS策略支持对每个account或user设置所有运行中任务能使用的最大资源分钟数;当执行的任务超过所设置的时间,该任务会处于pending中
  • 允许更新作业的内存(运行或挂起时需要 select/cons_tres_ex 插件)
  • 允许更新作业的 CPU(仅单节点作业需要 select/cons_tres_ex 插件)
  • 增加查询作业的使用信息、查询节点的负载信息、查询已完成作业的用户使用信息
  • 新增sge wrapper 中的qsub命令和sqtat命令部分参数的解析
  • 一些已知问题的修复

Fsched 10.37

更新时间:2024.09.15

  • 允许用户提高已经提交的任务的时间限制
  • 允许配置分区级别的任务超出申请内存后kill任务的选项
  • 增加基于CPU利用率和内存利用率的loadStop和loadSched配置
  • 避免认证系统无法访问时(例如LDAP/NIS)失效时,调度任务时可能出现的任务失败
  • 增加运行中任务用量等信息统计
  • 提高取消srun任务时的响应速度
  • 增加节点负载和任务负载收集机制,并基于此改进了 lsf wrapper 中的 lsload命令和 bjobs 命令输出
  • 改进HA场景下的failover切换机制,缩短切换时间
  • 增加高负载下的稳定性