跳到主要内容
版本:FCP 25.02

产品功能常见问题汇总

调度器相关

1. 为什么修改slurm集群中某个分区中的节点的hostname, 使其与另一个分区中的节点的hostname相同后,会导致该节点无法执行任务?

分区节点间没有限制 自动节点命名规则并没有排除用户主动生成的冲突的名称规则. slurm不知道这两个节点是不同分区的, slurm只关心hostname. 因为自动节点目前我们不强制用户不能采用可能冲突的命名规则. 所以, 如果用户在两个分区中使用了相同的命名规则, 那么slurm就会认为这两个节点是同一个节点, 从而导致问题.

2. 本地机器在开启头节点HA情况下, SLURMCTL不会随系统启动. 需要手动启动.

开启头节点HA之后, 为了保证恢复时状态一致, slurmctld不会随系统启动. 本地节点电源状态管理不由系统负责, 系统无法知道确切的电源状态. 所以不会像云端节点一样, 在启动后对集群做整体配置更新. 基于以上原因, 本地环境在开启头节点HA的情况下, 需要手动启动slurmctld

3. slurm提交无法满足的gpu任务时没有失败

slurm对gpu的任务校验有bug,需要保证输入的任务gpu参数正确

4. 修改节点的hostname,使其与另一区同名,修改后,该节点无法执行任务

fsched调度任务是通过hostname进行 如果集群中有两个节点的hostname相同,那么fsched会产生调度错误。

5. 执行srun -n3 -G2 会使用三个cpu机器,预期使用2台

cpu的task跟gpu的task是分开算的,cpu的task是num_tasks/min_node(3/1),而gpu的task是gpu/min_gpu(2/1),最终会取task的最大值3,造成任务需要3台机器,加上手动的节点,还需要再开两台 由于这个场景很特殊,并不常见,并且修复逻辑比较复杂,所以暂时不修复

6. Fsched集群,主机名称命名为a+62个1,ssh使用sinfo -Nel 命令,展示的名称不一致

slurm 会折叠数字后缀的hostname 折叠采用一个uint64_t的数字来表示,所以最大支持约9位数字后缀 超出后slurm折叠会出现问题 不支持在fsched使用过长(超过8位)数字后缀作为hostname

7. [Fsched集群]节点主机改名报错slurmd is not running

连续的数字会有问题,slurmd无法识别hostname,可以使用字母代替

8. SLURM交互式任务, 当应用本身无法发现节点异常的情况下. SLURM不会认为任务有问题而终止任务

slurm发现节点失败需要等节点超时, 需要约20分钟左右。 节点超时以后才会导致任务失败。

9. 交互式(srun)任务在autoscale场景下, 可能会遇上Communication Error

交互任务需要从提交节点直连计算节点, 但是计算节点在autoscale构建过程中可能会有服务还没完全启动得情况. 导致通信失败.

集群管理相关

1. /etc/hosts中包含过期的条目

集群不会清理已经移除的条目,因为可能包含用户自己的内容。

2. 单节点多分区,分区下的vCPU Multiplier参数统计不正确

多个分区的vCPU Multiplier参数不同时,加入多个分区的节点的vCPU Multiplier生效不确定。

3. 刚加入集群的静态节点,在再次打开添加节点列表时,复选框没有消失

节点的状态同步存在一定的延迟,等待一段时间即可正常

4. 编辑节点机器后,集群配置过程中出现报错

云厂商修改机型成功后调用开机接口有可能失败,等待小段时间odin服务会自动重试直到集群配置成功

5. FCP-OnPrem 或者混合云场景,common 节点 ntp st=16,导致集群对时异常

原因:common 节点 ntp st=16 workaround: common 节点 的部署配置文件中,custom_ntp_server 配置为 127.0.0.1,重新部署环境后,新集群生效

6. head节点ha,且head节点写满磁盘,集群一直更新中

由于head节点磁盘写满,所以fs-scale无法继续写入数据库,导致fs-scale推出,集群无法配置成功。 没有切换新head节点的原因: fs-scale版本没有更改,所以没有触发上传文件 网络通信正常 由于head节点的特殊性,在不影响集群配置的情况下不会切换head节点。此场景应该用监控节点健康去覆盖

监控告警相关

1. 本地场景邮件通知无法接受

邮件通知默认配置速石邮件服务器,内部网络情况下,可能无法访问速石邮件服务器,因此出现无法接受邮件通知; 解决方法参见 FCP-OnPrem 场景部署文档:自定义smtp要求

2. [centos6]监控服务查看gpu集群是,dcgm-exporter失败

CentOS 6 不支持GPU,无GPU驱动。

3. grafana 资源监控的纵坐标依旧重复

由于图表当前数据(最大值为1),切图表最少需要6个点。造成纵坐标重复。当数据组大值>=6 时,恢复正常

4. 修改告警策略,添加企业微信,会发送恢复的告警记录

修改告警策略的需要update到grafana中,现在grafana并未提供PATCH,所以是将原有的策略删除,因此会资源状态会变成恢复。

其他

1. 在Linux中 data-manager 在web 中下载时,调用 fastone:// 协议失败

检查该宿主机是否安装 data-manager 检查xdg-open组件配置是否正确 删除 /.config/data-manager 注:删除/.config/data-manager 存在文件丢失风险,该目录为 data-manager保持临时文件目录,如有个人文件,注意备份。

2. 当挂载点是父目录及其子目录时,发现父目录被写入aufofs,但实际并未挂上

嵌套挂载时,需要先挂载父目录,再挂载子目录。 但是autofs导致最终谁被挂载可能不确定。 这不是推荐的使用方式。

3. 全局挂载转换成计算分区挂载后, login节点依旧能访问到该挂载目录

不保证未失效的节点在解绑后看不到挂载点

4. 分享镜像时一直在等待中,最后不会分享成功

腾讯云分享镜像的API有bug,导致分享镜像时一直在等待中。 可以重试到成功

5. 添加共享目录授权地址填写规则

不能写两个相同的授权地址 目前授权地址可以是:ip,域名,通配符域名,cidr,* cidr不可以重叠,如果cidr重叠,会报错

6. AD用户使用域名\用户名的方式不能登录fastone界面

目前只能支持用户名

7. 不同用户连接同一个windows桌面机器-机器只有一个节点,会关闭前一个rdp的session

windows节点只允许一个远程session活着,远程链接windows节点都是用同一个用户名链接

8. 使用新建的子网创建集群或者任务失败

原因:如果环境使用了外置认证组件或者外置存储,可能由于外置组件的防火墙规则限制,新建子网的 cidr 不在可访问范围内。 解决:外置组件防火墙规则放开新建子网 cidr 范围内的节点访问

配置管理

配置共享存储报错[ERRoRl: spec/scripts/nfs-lock-check.lua

这个问题和通常和底层NFS挂载有关系, 请尝试使用以下方式解决

  1. 如果相应挂载已经挂载到了core节点上, 请尝试先使用umount卸载

如果问题仍未解决, 请联系fastone支持