为Fsched集群开启负载阈值功能减少节点OOM
通过对Fsched设置负载阈值,可以实现当计算节点的可用内存/CPU使用率超过设置的阈值时,自动关闭计算节点(sinfo将显示该节点状态为drain),阻止新作业分配到计算节点上,有效降低系统OOM和宕机的风险。
设置负载阈值
-
登录平台
-
创建一个名为cluster-loadthreshold的集群
集群类型:选择Fsched
计算分区-节点配置:选择一个节点加入计算分区
计算分区-高级配置:开启负载阈值
头分区-节点配置:选择一个节点加入头分区
其他设置选择默认参数
-
在右侧固定配置清单下侧,点击提交
-
等待5-15分钟,在集群管理页面,查看新创建的集群状态,等待集群进入运行中状态。
-
提交作业。
# 指定1个节点,每个节点分配1核,提交stress作业
srun -n1 -c1 stress --cpu 1 --timeout 600s -
查看负载阈值效果
登录到计算节点,使用top查看计算节点的cpu使用率
- 当集群stress作业运行时,通过sinfo可以看到节点的状态为drain,当再次提交作业时,作业不会被分配到该节点
- 当集群没有新的作业运行时,几分钟之后,计算节点的状态重新置为idle,当再次提交作业时,作业会被分配到该节点