告警设置
告警策略限制:
- 管理员可以创建所有集群、系统平台的告警,并可以看到所有用户创建的告警策略以及告警记录
- 最多可以添加1000条告警策略
创建告警策略
参数设置
-
策略名称:必填,用户可以输入一个策略名称,名称长度为1-40个字符,以大小字母开头,可以包含数字、下划线(_)或者连字符(-)
-
对象:必填,可以选择当前用户环境中所有的集群名称和系统平台
普通用户可以创建自己的集群告警,即普通用户登录平台可以看到的集群,集群包括自己创建的集群和别人分享的集群,可以查看创建的告警策略以及告警记录
只能选择运行中的集群,其他状态的集群可以展示,但不能选择
- 类型:必填,可选择主机或者服务或者调度器,默认选择主机
当选择主机时,集群可以选择一个或者多个节点;管理节点可以选择一个或者多个节点;文件系统不用选择节点
当选择服务时,集群/管理节点均无需选择具体某一节点,即默认监控所有节点的服务
当对象选择Fsched集群时,类型可以选择调度器,调度器类型的告警策略针对Fsched集群
-
节点:必填
- 当对象选择集群时,节点可以选择
-
所有节点:默认选择所有节点,如选择所有节点则不能再选择其他节点
-
可以选择当前集群中的任意节点,包括head、login和compute,可以选择一个或者多个
-
- 当对象选择系统平台时,节点可以选择
-
所有节点:默认选择所有节点,如选择所有节点则不能再选择其他节点
-
可以选择系统平台的任意节点,可以选择一个或多个,all in one即一个节点,all in two即两个节点只能选择运行中的节点,其他状态的节点可以展示,但不能选择
-
- 当对象选择集群时,节点可以选择
-
分区: 必选,当类型选择”调度器“时,可以选择选中集群中的某一个或者多个或者全部分区
-
告警级别:必选,可以选择通知、警告、紧急
-
监测周期:即多长时间取一次值,取值为监测周期内的平均值,
必选,单位为分钟,最低1分钟,最高1000000分钟
- 持续周期:即持续监测多少个周期均超过阈值之后告警
必选,单位为次,最低1次,最高1000000次
- 沉默周期:指告警发生后,如果未恢复正常,间隔多久重复发送一次告警通知
必选,默认为24小时,可以选择5分钟、15分钟、30分钟、1小时、3小时、6小时、12小时、24小时