告警服务
提示
空闲关机功能仅FCP-Suite开启混合云后可以使用。
告警策略
告警策略限制:最多可以添加1000条告警策略
字段说明
- 策略名称:必填,用户可以输入一个策略名称,名称长度为1-40个字符,以大小字母开头,可以包含数字、下划线(_)或者连字符(-)
- 对象:必填,可以选择当前用户环境中所有的集群名称和系统平台
普通用户可以创建自己的集群告警,即普通用户登录平台可以看到的集群,集群包括自己创建的集群和别人分享的集群,可以查看创建的告警策略以及告警记录
只能选择运行中的集群,其他状态的集群可以展示,但不能选择 - 类型:必填,可选择主机或者服务或者调度器,默认选择主机
当选择主机时,集群可以选择一个或者多个节点;管理节点可以选择一个或者多个节点;文件系统不用选择节点
当选择服务时,集群/管理节点均无需选择具体某一节点,即默认监控所有节点的服务
当对象选择Fsched集群时,类型可以选择调度器,调度器类型的告警策略针对Fsched集群 - 节点:必填
- 当对象选择集群时,节点可以选择
所有节点:默认选择所有节点,如选择所有节点则不能再选择其他节点
可以选择当前集群中的任意节点,包括head、login和compute,可以选择一个或者多个 - 当对象选择系统平台时,节点可以选择
所有节点:默认选择所有节点,如选择所有节点则不能再选择其他节点
可以选择系统平台的任意节点,可以选择一个或 多个,all in one即一个节点,all in two即两个节点只能选择运行中的节点,其他状态的节点可以展示,但不能选择
- 当对象选择集群时,节点可以选择
- 分区: 必选,当类型选择”调度器“时,可以选择选中集群中的某一个或者多个或者全部分区
- 告警级别:必选,可以选择通知、警告、紧急
- 监测周期:即多长时间取一次值,取值为监测周期内的平均值,
必选,单位为分钟,最低1分钟,最高1000000分钟 - 持续周期:即持续监测多少个周期均超过阈值之后告警
必选,单位为次,最低1次,最高1000000次 - 沉默周期:指告警发生后,如果未恢复正常,间隔多久重复发送一次告警通知
必选,默认为24小时,可以选择5分钟、15分钟、30分钟、1小时、3小时、6小时、12小时、24小时 - 状态:
- 启用:默认为启用状态,启用状态下告警策略生效,正常发送通知,正常生成告警记录
- 停用:用户可以修改为停用,停用状态下不会发送告警通知,也不会生成告警记录
- 用户:展示创建策略的用户
- 操作:
- 删除:任何状态下可以删除告警策略,删除需要二次确认,提示“删除告警策略,和该策略相关的告警记录也会被一并删除,确认要删除吗?”,用户确认之后,和该策略相关的告警记录也被一并删除
- 修改:除名称、对象、节点之外,其他均可修改
- 启用/停用:启用状态下可以停用,停用状态下可以启用
- 批量操作:
- 删除:批量删除
- 启用/停用:批量启用、停用
- 其他情况说明:
- 释放集群会自动停用和集群相关的告警策略
- 释放分区或者移除节点,分节点会被清理相关配置,因为节点关机或移除等导致的no data告警说明
- 如果告警策略中不包含节点运行状态异常,no data不发出告警通知和生成告警记录
- 如果告警策略中包含节点运行状态异常,no data正常发出告警通知和生成告警记录
告警行为
- 是否发送通知:是或者否
- 通知列表
- 邮箱展示邮箱名和用户名
- 企业微信展示企业ID和备注
- 自动处理
- 空闲关机:开启了闲置关机后,展示闲置关机对应的规则触发告警时执行自动关机操作。
- 对于集群可以选择此自动化操作行为,若要使用此功能则要求告警规则中需要选择”CPU使用率“+”<“,才会触发显示。配置后,对于持续N分钟,CPU使用率低于xx%,会自动进行关机操作。
- 空闲关机中的参数数值,取决于参数设置、告警规则中的相关参数设置,其中持续时间= 监测周期(分钟) 持续周期(次)
- 空闲关机:开启了闲置关机后,展示闲置关机对应的规则触发告警时执行自动关机操作。
告警规则
当任意规则满足条件时,策略属于触发状态
告警规则限制:
- 不可选择两个相同的告警项
- 最多可以添加8个监控项
- 默认有一个告警规则,且不能删除
-
当监控类型为节点时,监控项为:
监控项 条件 阈值 单位 cpu使用率 > >= < <= = != 最小值为1, 最大值为100 % 内存使用率 > >= < <= = != 最小值为1,最大值为100 % 节点运行状态 = 正常或者异常 - 磁盘使用率 > >= < <= = != 最小值为1,最大值为100 % 入站流量 > >= < <= = != 最小值为1,最大值为100000000 kb/s 出站流量 > >= < <= = != 最小值为1,最大值为100000000 kb/s 磁盘io写入速度 > >= < <= = != 最小值为1,最大值为100000000 kb/s 磁盘io读取速度 > >= < <= = != 最小值为1,最大值为100000000 kb/s -
当监控类型为节点时,监控项为:
监控项为服务组件=异常,即监控集群/管理节点上的所有的服务,当任何一个服务出现问题时,均发出告警
当监控类型为调度器时,监控项为:
监控项 条件 阀值 单位 调度器节点状态 = 不可用/宕机默认值为宕机,可以多选 - 作业状态 = 运行中 - -
监控指标说明: 调度器节点状态的监控指标的来源于集群监控-调度器监控-节点视图
-
节点状态说明:
alloc、mix等为sinfo看到的调度器层面的节点状态
- 可用=alloc+mix+idle+completing
- 不可用(节点被管理员标记为不可用)=drain+resv+maint
- 宕机=down+fail+error