产品功能常见问题汇总
调度器相关
1. 为什么修改slurm集群中某个分区中的节点的hostname, 使其与另一个分区中的节点的hostname相同后,会导致该节点无法执行任务?
分区节点间没有限制 自动节点命名规则并没有排除用户主动生成的冲突的名称规则. slurm不知道这两个节点是不同分区的, slurm只关心hostname. 因为自动节点目前我们不强制用户不能采用可能冲突的命名规则. 所以, 如果用户在两个分区中使用了相同的命名规则, 那么slurm就会认为这两个节点是同一个节点, 从而导致问题.
2. 本地机器在开启头节点HA情况下, SLURMCTL不会随系统启动. 需要手动启动.
开启头节点HA之后, 为了保证恢复时状态一致, slurmctld不会随系统启动. 本地节点电源状态管理不由系统负责, 系统无法知道确切的电源状态. 所以不会像云端节点一样, 在启动后对集群做整体配置更新. 基于以上原因, 本地环境在开启头节点HA的情况下, 需要手动启动slurmctld
3. slurm提交无法满足的gpu任务时没有失败
slurm对gpu的任务校验有bug,需要保证输入的任务gpu参数正确
4. 修改节点的hostname,使其与另一区同名,修改后,该节点无法执行任务
fsched调度任务是通过hostname进行 如果集群中有两个节点的hostname相同,那么fsched会产生调度错误。
5. 执行srun -n3 -G2 会使用三个cpu机器,预期使用2台
cpu的task跟gpu的task是分开算的,cpu的task是num_tasks/min_node(3/1),而gpu的task是gpu/min_gpu(2/1),最终会取task的最大值3,造成任务需要3台机器,加上手动的节点,还需要再开两台 由于这个场景很特殊,并不常见,并且修复逻辑比较复杂,所以暂时不修复
6. Fsched集群,主机名称命名为a+62个1,ssh使用sinfo -Nel 命令,展示的名称不一致
slurm 会折叠数字后缀的hostname 折叠采用一个uint64_t的数字来表示,所以最大支持约9位数字后缀 超出后slurm折叠会出现问题 不支持在fsched使用过长(超过8位)数字后缀作为hostname
7. [Fsched集群]节点主机改名报错slurmd is not running
连续的数字会有问题,slurmd无法识别hostname,可以使用字母代替
8. SLURM交互式任务, 当应用本身无法发现节点异常的情况下. SLURM不会认为任务有问题而终止任务
slurm发现节点失败需要等节点超时, 需要约20分钟左右。 节点超时以后才会导致任务失败。
9. 交互式(srun)任务在autoscale场景下, 可能会遇上Communication Error
交互任务需要从提交节点直连计算节点, 但是计算节点在autoscale构建过程中可能会有服务还没完全启动得情况. 导致通信失败.
集群管理相关
1. /etc/hosts中包含过期的条目
集群不会清理已经移除的条目,因为可能包含用户自己的内容。
2. 单节点多分区,分区下的vCPU Multiplier参数统计不正确
多个分区的vCPU Multiplier参数不同 时,加入多个分区的节点的vCPU Multiplier生效不确定。
3. 刚加入集群的静态节点,在再次打开添加节点列表时,复选框没有消失
节点的状态同步存在一定的延迟,等待一段时间即可正常
4. 编辑节点机器后,集群配置过程中出现报错
云厂商修改机型成功后调用开机接口有可能失败,等待小段时间odin服务会自动重试直到集群配置成功
5. FCP-OnPrem 或者混合云场景,common 节点 ntp st=16,导致集群对时异常
原因:common 节点 ntp st=16 workaround: common 节点 的部署配置文件中,custom_ntp_server 配置为 127.0.0.1,重新部署环境后,新集群生效
6. head节点ha,且head节点写满磁盘,集群一直更新中
由于head节点磁盘写满,所以fs-scale无法继续写入数据库,导致fs-scale推出,集群无法配置成功。 没有切换新head节点的原因: fs-scale版本没有更改,所以没有触发上传文件 网络通信正常 由于head节点的特殊性,在不影响集群配置的情况下不会切换head节点。此场景应该用监控节点健康去覆盖
监控告警相关
1. 本地场景邮件通知无法接受
邮件通知默认配置速石邮件服务器,内部网络情况下,可能无法访问速石邮件服务器,因此出现无法接受邮件通知; 解决方法参见 FCP-OnPrem 场景部署文档:自定义smtp要求
2. [centos6]监控服务查看gpu集群是,dcgm-exporter失败
CentOS 6 不支持GPU,无GPU驱动。
3. grafana 资源监控的纵坐标依旧重复
由于图表当前数据(最大值为1),切图表最少需要6个点。造成纵坐标重复。当数据组大值>=6 时,恢复正常
4. 修改告警策略,添加企业微信,会发送恢复的告警记录
修改告警策略的需要update到grafana中,现在grafana并未提供PATCH,所以是将原有的策略删除,因此会资源状态会变成恢复。