默认的告警策略
功能说明
全局默认的告警策略,该默认策略无需客户自己创建,简化客户维护平台的复杂度
权限说明
- 仅admin用户可以查看、修改、停用默认的告警策略
- 默认的告警策略生效于平台中所有的桌面和集群,即平台中任一桌面或集群达到监控项的触发条件,均发出告警通知
默认策略
当环境部署/升级成功后,平台默认生成一条告警策略,默认的告警策略不能删除,可以修改或停用
默认规则如下:
①参数设置
策略名称=defaultPolicy、对象=平台、类型=平台、级别=通知、监测周期=2分钟、持续周期=10次、沉默周期=24小时
②告警规则
默认即有以下告警规则,编辑时可以删除监控项,但至少需要保留一个
持续时间=监测周期持续周 期,根据用户的设置自动计算得出
| 监控项 | 条件 | 阈值 | 单位 | tips |
|---|---|---|---|---|
| 平台CPU增加 | > | 1000 | 核 | |
| 平台CPU减少 | > | 1000 | 核 | |
| 节点状态 | = | 未知 | - | |
| 节点状态 | = | 错误 | - | |
| 节点状态 | = | 缺失 | - | |
| 节点状态 | = | 瞬态 | - | 节点瞬态包含:更新中、创建中、启动中、关机中、移除中/释放中、排队中 |
| 桌面/集群状态 | = | 瞬态 | - | 集群/桌面瞬态包含:更新中、创建中、启动中、关机中、释放中、排队中 |
③告警行为
发送通知,开启
邮箱:admin的邮箱(如果admin邮箱无法发送,则不发送邮箱通知,仅在告警记录中生成一条告警记录)
默认告警策略支持的操作
- 编辑:支持编辑级别、监测周期、持续周期、沉默周期、告警规则、告警通知方式;不支持编辑策略名称、对象、类型
- 停用:默认的告警策略支持停用,停用之后不会再发送告警通知
举例说明
告警记录参考如下
| 告警时间 | 状态 | 级别 | 对象 | 节点 | 类型 | 策略名称 | 监控项当前值 | 告警规则 | 告警行为 |
|---|---|---|---|---|---|---|---|---|---|
| 2分钟前 | 告警 | 通知 | cluster1 | login1 | 平台 | defaultpolicy-xxxx | 节点状态持续20分钟=未知,当前值为未知 | 节点状态=未知 | 发送通知 |
| 2分钟前 | 告警 | 通知 | desktop1 | desktop1 | 平台 | defaultpolicy-xxxx | 节点状态持续20分钟=瞬态,当前值为更新中 | 节点状态=瞬态 | 发送通知 |
| 2分钟前 | 告警 | 通知 | desktop1 | - | 平台 | defaultpolicy-xxxx | 节点状态持续20分钟=瞬态,当前值为更新中 | 集群/桌面状态=瞬态 | 发送通知 |
| 2分钟前 | 告警 | 通知 | desktop1 | - | 平台 | defaultpolicy-xxxx | odin任务状态持续20分钟=卡死,当前值为卡死 | odin任务状态=卡死 | 发送通知 |