FAQ
集群配置FAQ
1. 发生重配置的条件
在集群没有配置头节点HA的时候, 集群在以下条件下会触发重配置:
- 用户对集群进行了变更, 例如: 添加/删除节点, 修改配置等.
- 用户主动使用了"重新配置"功能.
- 管理栈无法从必要的服务程序获取信息, 通过重配置来重新获取关键信息. 包括以下服务:
- fs-scale: 用于获取集群任务信息, 维护集群节点DRAIN状态等.
- fs-statesvc: 用于收集任务信息, 分析任务状态等.
如果集群配置了头节点HA, 则不再进行自动的重配置.
调度器命令FAQ
1. 优先级如何确定?如何调整优先级?
查看作业优先级
squeue #查看作业信息,PRIORITY数值越大,优先级越高
JOBID PARTITION NAME USER ST TIME NODES NODELIST CPUS REASON PRIORITY TIMELIMIT ACCOUNT
12345 compute my_job user1 R 02:15 1 node01 4 None 1000 01:00:00 myaccount
12346 compute another_job user2 PD 00:10 1 (None) 4 Resources 900 02:00:00 otheraccount
12347 compute test_job user1 CG 00:05 1 node02 4 None 950 01:30:00 myaccount
squeue -j <job_id> #指定作业ID,包括优先级
squeue -u <username> #指定用户,包括优先级
scontrol show job <job_id> #指定作业ID,查询作业详细信息,包括优先级
调整优先级
#提交任务设置优先级
sbatch --priority=10000 my_script.sh #1000代表优先级,值越大,优先级越高
#管理员调整已提交的作业优先级
scontrol update jobid=12345 priority=2000 #把作业ID为 12345 的优先级调整为 2000。
负载阈值FAQ
1. stop任务和恢复任务的原理是什么?
在调度器层面,先发送SIGTSTP信号(可被trap),两秒钟后发送SIGSTOP信号(不可trap)。
2. 所有的任务都能恢复么?
因负载阈值的LoadstopMem或LoadstopUt参数停止的任务,当负载阈值调整后都可以自动恢复,继续执行作业。
3. FCP中如何配置负载阈值?
负载阈值支持按分区设置自定义参数,支持在新建分区和编辑分区时设置。以下是自定义参数设置界面:
- 在新建集群时,在计算分区高级配置-自定义参数中设置。
- 集群创建后,可以在新建计算分区高级配置-自定义参数中设置。
- 集群创建/计算分区创建成功后,可以在分区列表-高级配置-编辑自定义参数中。
设置示例:
具体支持设置的参数及参数设置说明见负载阈值介绍文档