跳到主要内容
版本:FCP 24.11

为Fsched集群开启负载阈值功能减少节点OOM

通过对Fsched设置负载阈值,可以实现当计算节点的可用内存/CPU使用率超过设置的阈值时,自动关闭计算节点(sinfo将显示该节点状态为drain),阻止新作业分配到计算节点上,有效降低系统OOM和宕机的风险。

设置负载阈值

  1. 登录平台

  2. 创建一个名为cluster-loadthreshold的集群

    集群类型:选择Fsched

    计算分区-节点配置:选择一个节点加入计算分区

    计算分区-高级配置:开启负载阈值

    头分区-节点配置:选择一个节点加入头分区

    其他设置选择默认参数

  3. 在右侧固定配置清单下侧,点击提交

  4. 等待5-15分钟,在集群管理页面,查看新创建的集群状态,等待集群进入运行中状态。

  5. 提交作业。

    # 指定1个节点,每个节点分配1核,提交stress作业
    srun -n1 -c1 stress --cpu 1 --timeout 600s
  6. 查看负载阈值效果

    登录到计算节点,使用top查看计算节点的cpu使用率

    • 当集群stress作业运行时,通过sinfo可以看到节点的状态为drain,当再次提交作业时,作业不会被分配到该节点
    • 当集群没有新的作业运行时,几分钟之后,计算节点的状态重新置为idle,当再次提交作业时,作业会被分配到该节点