产品功能常见问题汇总
调度器相关
1. 为什么修改slurm集群中某个分区中的节点的hostname, 使其与另一个分区中的节点的hostname相同后,会导致该节点无法执行任务?
分区节点间没有限制 自动节点命名规则并没有排除用户主动生成的冲突的名称规则. slurm不知道这两个节点是不同分区的, slurm只关心hostname. 因为自动节点目前我们不强制用户不能采用可能冲突的命名规则. 所以, 如果用户在两个分区中使用了相同的命名规则, 那么slurm就会认为这两个节点是同一个节点, 从而导致问题.
2. 本地机器在开启头节点HA情况下, SLURMCTL不会随系统启动. 需要手动启动.
开启头节点HA之后, 为了保证恢复时状态一致, slurmctld不会随系统启动. 本地节点电源状态管理不由系统负责, 系统无法知道确切的电源状态. 所以不会像云端节点一样, 在启动后对集群做整体配置更新. 基于以上原因, 本地环境在开启头节点HA的情况下, 需要手动启动slurmctld