外置AD接入PBS运行BLADED任务设置文档
前提条件
外置AD服务器 必须满足以下条件!!!
- ad服务器与windows计算节点网络连通
- 添加ad域管理员
pbsadmin
,密码abc111.
- 保证ad用户设置
gid number
和uid number
- ad用户与windows计算节点用户映射,名称必须一致
- ad用户家目录必须与
fastone
平台的用户目录一致。如果ad上的用户目录为'/fasetone',则共享存储必须为'/fastone'
外置存储
- 外置存储服务器与windows计算节点网络连通
- 保证存储协议支持NFS和CIFS协议
- 保证存储支持用户认证,支持AD
平台压缩包版本
- 平台版本:24.11bladed
- 下载地址(不低于此版本):s3://fastone-artifects/fastone-package/24-11bladed/fastone-fcp-24.11bladed.228719.tgz
操作步骤
节点依赖安装
提示
- 注意(必须检查以下项目是否完成!!!):
- 如果是云上windows镜像,需要修改机器SID。
- windows机器加域时,请将DNS指定为AD域控的IP。
- windows机器需手动开启远程登陆并加入AD域,不开启远程登陆在fastone平台无法使用rdp服务。
- 将
pbsadmin
用户添加到本地管理员组:net localgroup administrators "ad_domain\pbsadmin" /add
。替换"ad_domain"为AD域控的域名。 - 保证在本地也有
pbsadmin
用户net user pbsadmin
,没有则根据以上文档创建。 - 验证
C:\Windows\System32\fsagent.exe
跟C:\bin\bladed_utils.exe
权限,必须对所有用户可执行包括ad域用户。
- 如果是云上windows镜像,需要修改机器SID。
启用平台PBS调度器(不可跳过)
- 参考文档(Knowledge Base/SOP/启用PBS调度器以运行Baladed应用)
注册节点到平台:
提示
在主机管理页面,选择新建主机时,username
使用fastone
用户添加节点
PBS集群
- 共享存储的挂载路径:
- 确保共享存储目录
/fs/users
对所有用户可读写chmod -R 777 /fs/users
。替换/fs/users
为设置的共享存储的路径。
- 确保共享存储目录
- windows计算节点设置:
- 步骤:
- 挂载脚本内容(使用ad用户登陆windows进行操作即可):
@echo off
net use Z: /d /yes # 盘符自定义,如Z:
net use Z: \\fs.test.com\vol1 # 替换自己的共享存储路径,保证此处Z:盘符路径与linux上共享存储路径一致。比如Z:\users与/fs/users在同一层级。- 使用管理员身份在
cmd
中运行脚本,挂载共享存储:
psexec -s -h -c -f -accepteula "C:\Users\ad_user\mount-bladed.bat" # 替换自己挂载脚本的路径
提示- 注意:如果不是Z盘,还需要修改软链接,使用管理员身份在
cmd
中运行命令:
rmdir /S /Q c:\fastone # 删除原有软链接
mklink /d c:\fastone D: # 替换自己共享存储的盘符,如D: - 步骤:
任务配置
- 配置app及运行任务:
- 查看中车 bladed说明文档
- 拷贝对应的cwl到fastone平台
- 根据文档下载最新的bladed-utils.exe
- 根据文档将bladed-utils.exe复制所有windows计算节点的
C:\bin
目录,没有则创建。 - 根据文档,在平台新建任务的input内填入文件路径或者文件夹路径,运行任务即可。
ad域用户登陆Fastone
平台
- 用户登陆后才会在
/fs/users
创建用户目录,所以新用户登陆后需要手动将文件目录权限改为777。chmod -R 777 /fastone/users/ad_user
常见问题
-
任务数据
- 确保任务数据在共享存储中的权限对所有用户可读写。
- 请确认*.in文件中的绝对路径与共享存储路径一致,若不一致,请及时修改。
- 检查任务数据中的bladed可执行文件路径是否与*.in文件中的路径一致,如不一致,请进行修改。
-
集群配置失败
- 没有pbs_mom服务
- 执行完
win_postinstall.py
才会启动pbs_mom服务。可能是install过程中的mklink
报错。尝试手动在windows上运行配置windows脚本
- 执行完
- 没有pbs_mom服务
-
pbs_mom服务启动失败
- 报错登录用户错误。检查是否是域控pbsadmin密码错误
- 报错服务损坏,则是注册失败。需要删除home目录和conf文件,然后重启windows节点
-
计算节点重启
- 需重新手动挂载共享存储。
- PBS_MOM服务停止
- 在head节点上执行
pbsnodes -a
查看计算节点状态是否为down - 在windows节点上执行
sc query pbs_mom
查看PBS_MOM服务状态是否为STOPPED - 执行
net start PBS_MOM
启动PBS_MOM服务,执行sc query pbs_mom
查看PBS_MOM服务状态是否为RUNNING
- 在head节点上执行
-
计算节点状态为down,且登陆windows使用管理员身份无法重启,报错为"登陆失败"
- 请检查windows计算节点的是否是清除SID,清除SID后,需要重新完整的跑一遍最小化安装。
- 此问题是由于本地没有
pbsadmin
用户导致的,参考节点依赖安装添加pbsadmin
用户 - 保证pbs_mom服务是使用ad域管理员
pbsadmin
用户启动。
-
增加节点
- 如果使用镜像,则需要清除SID,清除之后需要完整的跑一遍最小化安装
-
增加ad用户
/fastone/users
目录下对应的ad用户目录需要对ad用户可读写,否则ad用户无法使用共享存储。chmod -R 777 /fastone/users/ad_user
-
提交任务失败
-
任务失败,且 无输出文件,请检查共享存储是否对ad用户可读写。
-
任务失败,且无输出文件,请检查ad的ladp连接是否成功,head节点是否可以成功拿到ad用户。
id ad_user
-
任务失败,且有输出文件,报错如下
fastone_job.py:144 ERROR Job: list_jobs(Id: 10851) copy_file_erro: [Errno 2] No such file or directory: '/fastone/users/wangli/jobs/job-99/children/job-99-10851/log/stderr.txt'
请检查对应任务windows上的
C:\fastone
目录的软链接是否正确的连到共享存储。直接进入目录,保证进入目录后是有users
的那一层。如果不正确则需要删除软链接,重新创建软链接。rmdir /S /Q c:\fastone # 删除原有软链接
mklink /d c:\fastone D: # 替换自己共享存储的盘符,如D: -
任务失败,且有输出文件,报错如下:
CreateProcess(AsUser) error=1314
检查对应windows上的pbs_mom服务的登陆用户。需要是ad域中的
pbsadmin
用户。 -
任务失败,且有输出文件,报错如下:
无法访问
验证
C:\Windows\System32\fsagent.exe
跟C:\bin\bladed_utils.exe
权限,必须对所有用户可执行包括ad域用户。
-