产品功能常见问题汇总
调度器相关
1. 为什么修改slurm集群中某个分区中的节点的hostname, 使其与另一个分区中的节点的hostname相同后,会导致该节点无法执行任务?
分区节点间没有限制 自动节点命名规则并没有排除用户主动生成的冲突的名称规则. slurm不知道这两个节点是不同分区的, slurm只关心hostname. 因为自动节点目前我们不强制用户不能采用可能冲突的命名规则. 所以, 如果用户在两个分区中使用了相同的命名规则, 那么slurm就会认为这两个节点是同一个节点, 从而导致问题.
2. 本地机器在开启头节点HA情况下, SLURMCTL不会随系统启动. 需要手动启动.
开启头节点HA之后, 为了保证恢复时状态一致, slurmctld不会随系统启动. 本地节点电源状态管理不由系统负责, 系统无法知道确切的电源状态. 所以不会像云端节点一样, 在启动后对集群做整体配置更新. 基于以上原因, 本地环境在开启头节点HA的情况下, 需要手动启动slurmctld
3. slurm提交无法满足的gpu任务时没有失败
slurm对gpu的任务校验有bug,需要保证输入的任务gpu参数正确
4. 修改节点的hostname,使其与另一区同名,修改后,该节点无法执行任务
fsched调度任务是通过hostname进行 如果集群中有两个节点的hostname相同,那么fsched会产生调度错误。
5. 执行srun -n3 -G2 会使用三个cpu机器,预期使用2台
cpu的task跟gpu的task是分开算的,cpu的task是num_tasks/min_node(3/1),而gpu的task是gpu/min_gpu(2/1),最终会取task的最大值3,造成任务需要3台机器,加上手动的节点,还需要再开两台 由于这个场景很特殊,并不常见,并且修复逻辑比较复杂,所以暂时不修复
6. Fsched集群,主机名称命名为a+62个1,ssh使用sinfo -Nel 命令,展示的名称不一致
slurm 会折叠数字后缀的hostname 折叠采用一个uint64_t的数字来表示,所以最大支持约9位数字后缀 超出后slurm折叠会出现问题 不支持在fsched使用过长(超过8位)数字后缀作为hostname
7. [Fsched集群]节点主机改名报错slurmd is not running
连续的数字会有问题,slurmd无法识别hostname,可以使用字母代替