平台和其关联节点重启或关机的影响
FCP平台整体包含三个主要部分
- 平台管理节点
- 管理节点
- 监控节点(可选)
- 集群节点
- 头节点
- 计算节点
- 登录节点
- 桌面节点
- 外部支撑服务节点
- 认证信息服务(可选)
- NTP服务
- 存储服务
当以上节点关机的时候,影响如下表:
节点类型 | 集群内(fsched)任务 | 任务模式 | 集群管理 | 集群监控 | 用户管理 | 数据访问 | 远程访问 |
---|---|---|---|---|---|---|---|
管理节点 | 长时间关机会导致任务accouting信息不准确,短时间无影响 | 无法提交任务 | 无法管理集群 | 无法监控集群 | 无法管理用户 | 无法访问数据 | 无法远程访问 |
监控节点 | 无 | 无 | 无 | 无法监控集群 | 无 | 无 | 无 |
头节点 | 无法提交新任务,已经运行完成的任务会继续运行,运行完成后资源无法释放 | 任务失败 | 无法管理集群 | 部分监控信息获取不到 | 无 | 无 | 无 |
计算节点 | 运行于节点上的任务失败 | 运行于节点上的任务失败 | 无法管理集群 | 该节点信息无法获取 | 无 | 无 | 无 |
登录节点 | 运行于节点上的交互任务失败 | 无 | 无法管理集群 | 该节点信息无法获取 | 无 | 无 | 无 |
桌面节点 | 运行于节点上的任务失败 | 无 | 无法管理集群 | 该节点信息无法获取 | 无 | 无 | 无 |
认证服务 | 长时间(>1分钟)会导致任务无法提交(无法验证提交身份),短时间无影响 | 长时间(>1分钟)会导致任务无法提交(无法验证提交身份 | 不能登录 | 无 | 无法管理用户 | 无法验证 | 无法验证 |
NTP服务 | 长时间失效时间偏移,导致集群节点间验证失效,无法运行任务,短时间无影响 | 长时间失效时间偏移,导致集群节点间验证失效,无法运行任务 | 无 | 无 | 无 | 无 | 无 |
存储服务 | 任务执行可能失败,由应用自身特性决定 | 无法提交任务 | 无法管理集群,管理过程会阻塞 | 无 | 无 | 无法访问 | 如果用户家目录在共享存储上,无法登录 |