跳到主要内容
版本:FCP 24.11

外置AD接入PBS运行BLADED任务设置文档

前提条件

外置AD服务器 必须满足以下条件!!!

  • ad服务器与windows计算节点网络连通
  • 添加ad域管理员pbsadmin,密码abc111.
  • 保证ad用户设置gid numberuid number
  • ad用户与windows计算节点用户映射,名称必须一致
  • ad用户家目录必须与fastone平台的用户目录一致。如果ad上的用户目录为'/fasetone',则共享存储必须为'/fastone'

外置存储

  • 外置存储服务器与windows计算节点网络连通
  • 保证存储协议支持NFS和CIFS协议
  • 保证存储支持用户认证,支持AD

平台压缩包版本

  • 平台版本:24.11bladed
  • 下载地址(不低于此版本):s3://fastone-artifects/fastone-package/24-11bladed/fastone-fcp-24.11bladed.228719.tgz

操作步骤

节点依赖安装

提示
  • 注意(必须检查以下项目是否完成!!!):
    • 如果是云上windows镜像,需要修改机器SID。
    • windows机器加域时,请将DNS指定为AD域控的IP。
    • windows机器需手动开启远程登陆并加入AD域,不开启远程登陆在fastone平台无法使用rdp服务。
    • pbsadmin用户添加到本地管理员组:net localgroup administrators "ad_domain\pbsadmin" /add。替换"ad_domain"为AD域控的域名。
    • 保证在本地也有pbsadmin用户net user pbsadmin,没有则根据以上文档创建。
    • 验证C:\Windows\System32\fsagent.exeC:\bin\bladed_utils.exe权限,必须对所有用户可执行包括ad域用户。

启用平台PBS调度器(不可跳过)

  • 参考文档(Knowledge Base/SOP/启用PBS调度器以运行Baladed应用)

注册节点到平台:

提示

在主机管理页面,选择新建主机时,username使用fastone用户添加节点

PBS集群

  • 共享存储的挂载路径:
    • 确保共享存储目录/fs/users对所有用户可读写chmod -R 777 /fs/users。替换/fs/users为设置的共享存储的路径。
  • windows计算节点设置:
    • 步骤:
      • 挂载脚本内容(使用ad用户登陆windows进行操作即可):
      @echo off
      net use Z: /d /yes # 盘符自定义,如Z:
      net use Z: \\fs.test.com\vol1 # 替换自己的共享存储路径,保证此处Z:盘符路径与linux上共享存储路径一致。比如Z:\users与/fs/users在同一层级。
      • 使用管理员身份在cmd中运行脚本,挂载共享存储:
      psexec -s -h -c -f -accepteula "C:\Users\ad_user\mount-bladed.bat" # 替换自己挂载脚本的路径
    提示
    • 注意:如果不是Z盘,还需要修改软链接,使用管理员身份在cmd中运行命令:
    rmdir /S /Q c:\fastone  # 删除原有软链接
    mklink /d c:\fastone D: # 替换自己共享存储的盘符,如D:

任务配置

  • 配置app及运行任务:
    • 查看中车 bladed说明文档
    • 拷贝对应的cwl到fastone平台
    • 根据文档下载最新的bladed-utils.exe
    • 根据文档将bladed-utils.exe复制所有windows计算节点C:\bin目录,没有则创建。
    • 根据文档,在平台新建任务的input内填入文件路径或者文件夹路径,运行任务即可。

ad域用户登陆Fastone平台

  • 用户登陆后才会在/fs/users创建用户目录,所以新用户登陆后需要手动将文件目录权限改为777。chmod -R 777 /fastone/users/ad_user

常见问题

  • 任务数据

    • 确保任务数据在共享存储中的权限对所有用户可读写。
    • 请确认*.in文件中的绝对路径与共享存储路径一致,若不一致,请及时修改。
    • 检查任务数据中的bladed可执行文件路径是否与*.in文件中的路径一致,如不一致,请进行修改。
  • 集群配置失败

    • 没有pbs_mom服务
      • 执行完win_postinstall.py才会启动pbs_mom服务。可能是install过程中的mklink报错。尝试手动在windows上运行配置windows脚本
  • pbs_mom服务启动失败

    • 报错登录用户错误。检查是否是域控pbsadmin密码错误
    • 报错服务损坏,则是注册失败。需要删除home目录和conf文件,然后重启windows节点
  • 计算节点重启

    • 需重新手动挂载共享存储。
    • PBS_MOM服务停止
      • 在head节点上执行pbsnodes -a查看计算节点状态是否为down
      • 在windows节点上执行sc query pbs_mom查看PBS_MOM服务状态是否为STOPPED
      • 执行net start PBS_MOM启动PBS_MOM服务,执行sc query pbs_mom查看PBS_MOM服务状态是否为RUNNING
  • 计算节点状态为down,且登陆windows使用管理员身份无法重启,报错为"登陆失败"

    • 请检查windows计算节点的是否是清除SID,清除SID后,需要重新完整的跑一遍最小化安装。
    • 此问题是由于本地没有pbsadmin用户导致的,参考节点依赖安装添加pbsadmin用户
    • 保证pbs_mom服务是使用ad域管理员pbsadmin用户启动。
  • 增加节点

    • 如果使用镜像,则需要清除SID,清除之后需要完整的跑一遍最小化安装
  • 增加ad用户

    • /fastone/users目录下对应的ad用户目录需要对ad用户可读写,否则ad用户无法使用共享存储。chmod -R 777 /fastone/users/ad_user
  • 提交任务失败

    • 任务失败,且无输出文件,请检查共享存储是否对ad用户可读写。

    • 任务失败,且无输出文件,请检查ad的ladp连接是否成功,head节点是否可以成功拿到ad用户。id ad_user

    • 任务失败,且有输出文件,报错如下

      fastone_job.py:144 ERROR Job: list_jobs(Id: 10851) copy_file_erro: [Errno 2] No such file or directory: '/fastone/users/wangli/jobs/job-99/children/job-99-10851/log/stderr.txt'

      请检查对应任务windows上的C:\fastone目录的软链接是否正确的连到共享存储。直接进入目录,保证进入目录后是有users的那一层。如果不正确则需要删除软链接,重新创建软链接。

      rmdir /S /Q c:\fastone  # 删除原有软链接
      mklink /d c:\fastone D: # 替换自己共享存储的盘符,如D:
    • 任务失败,且有输出文件,报错如下:

      CreateProcess(AsUser) error=1314

      检查对应windows上的pbs_mom服务的登陆用户。需要是ad域中的pbsadmin用户。

    • 任务失败,且有输出文件,报错如下:

      无法访问

      验证C:\Windows\System32\fsagent.exeC:\bin\bladed_utils.exe权限,必须对所有用户可执行包括ad域用户。