作业数据存储说明
背景
fcp-suite可以支持将jobs数据持久化到监控节点上,这么做是为了:
- 支持详细任务的查询
- 丰富集群、分区、用户维度作业的监控指标
- 对日均500w,同时运行的作业数10w的规模,提供更稳定可靠的支持
- 加快监控数据的响应速度
- 延长数据保存时间,让用户可以有查询几个月前甚至更久前的作业信息
如何存储
- 作业数据会保存在monitor节点的PostgreSQL中。
- 可以在监控配置页面,修改调度器作业保存的天数。
- 默认的保存是90天,增大保存天数,可能会因数据量较大而降低集群监控页面响应速度。
- 用户可以在集群监控中查询到保存天数以内的所有作业数据。
- 数据是以天为粒度过,超过设定范围以后会从主查询范围内剥离。
- 从查询范围中剥离的数据,并不会直接删除,未来,我们会提供这些数据的查询方式。
数据规模统计
任务数量 | 预计天数 | 数据大小 |
---|---|---|
150万 | < 1 days | 1.4G |
500万 | 1 day | 4.37G |
1.5亿 | 30 days | 128G |
4.5亿 | 90 days | 384G |