跳到主要内容
版本:FCP 25.02

告警服务

提示

空闲关机功能仅FCP-Suite开启混合云后可以使用。

告警策略

告警策略限制:最多可以添加1000条告警策略

字段说明

  • 策略名称:必填,用户可以输入一个策略名称,名称长度为1-40个字符,以大小字母开头,可以包含数字、下划线(_)或者连字符(-)
  • 对象:必填,可以选择当前用户环境中所有的集群名称和系统平台
    普通用户可以创建自己的集群告警,即普通用户登录平台可以看到的集群,集群包括自己创建的集群和别人分享的集群,可以查看创建的告警策略以及告警记录
    只能选择运行中的集群,其他状态的集群可以展示,但不能选择
  • 类型:必填,可选择主机或者服务或者调度器,默认选择主机
    当选择主机时,集群可以选择一个或者多个节点;管理节点可以选择一个或者多个节点;文件系统不用选择节点
    当选择服务时,集群/管理节点均无需选择具体某一节点,即默认监控所有节点的服务
    当对象选择Fsched集群时,类型可以选择调度器,调度器类型的告警策略针对Fsched集群
  • 节点:必填
    • 当对象选择集群时,节点可以选择
      所有节点:默认选择所有节点,如选择所有节点则不能再选择其他节点
      可以选择当前集群中的任意节点,包括head、login和compute,可以选择一个或者多个
    • 当对象选择系统平台时,节点可以选择
      所有节点:默认选择所有节点,如选择所有节点则不能再选择其他节点
      可以选择系统平台的任意节点,可以选择一个或多个,all in one即一个节点,all in two即两个节点只能选择运行中的节点,其他状态的节点可以展示,但不能选择
  • 分区: 必选,当类型选择”调度器“时,可以选择选中集群中的某一个或者多个或者全部分区
  • 告警级别:必选,可以选择通知、警告、紧急
  • 监测周期:即多长时间取一次值,取值为监测周期内的平均值,
    必选,单位为分钟,最低1分钟,最高1000000分钟
  • 持续周期:即持续监测多少个周期均超过阈值之后告警
    必选,单位为次,最低1次,最高1000000次
  • 沉默周期:指告警发生后,如果未恢复正常,间隔多久重复发送一次告警通知
    必选,默认为24小时,可以选择5分钟、15分钟、30分钟、1小时、3小时、6小时、12小时、24小时
  • 状态:
    • 启用:默认为启用状态,启用状态下告警策略生效,正常发送通知,正常生成告警记录
    • 停用:用户可以修改为停用,停用状态下不会发送告警通知,也不会生成告警记录
  • 用户:展示创建策略的用户
  • 操作:
    • 删除:任何状态下可以删除告警策略,删除需要二次确认,提示“删除告警策略,和该策略相关的告警记录也会被一并删除,确认要删除吗?”,用户确认之后,和该策略相关的告警记录也被一并删除
    • 修改:除名称、对象、节点之外,其他均可修改
    • 启用/停用:启用状态下可以停用,停用状态下可以启用
    • 批量操作:
      • 删除:批量删除
      • 启用/停用:批量启用、停用
  • 其他情况说明:
    • 释放集群会自动停用和集群相关的告警策略
    • 释放分区或者移除节点,分节点会被清理相关配置,因为节点关机或移除等导致的no data告警说明
      • 如果告警策略中不包含节点运行状态异常,no data不发出告警通知和生成告警记录
      • 如果告警策略中包含节点运行状态异常,no data正常发出告警通知和生成告警记录

告警行为

  • 是否发送通知:是或者否
  • 通知列表
    • 邮箱展示邮箱名和用户名
    • 企业微信展示企业ID和备注
  • 自动处理
    • 空闲关机:开启了闲置关机后,展示闲置关机对应的规则触发告警时执行自动关机操作。
      • 对于集群可以选择此自动化操作行为,若要使用此功能则要求告警规则中需要选择”CPU使用率“+”<“,才会触发显示。配置后,对于持续N分钟,CPU使用率低于xx%,会自动进行关机操作。
      • 空闲关机中的参数数值,取决于参数设置、告警规则中的相关参数设置,其中持续时间= 监测周期(分钟) 持续周期(次)

告警规则

当任意规则满足条件时,策略属于触发状态

告警规则限制:

  1. 不可选择两个相同的告警项
  2. 最多可以添加8个监控项
  3. 默认有一个告警规则,且不能删除
  • 当监控类型为节点时,监控项为:

    监控项条件阈值单位
    cpu使用率> >= < <= = !=最小值为1,最大值为100%
    内存使用率> >= < <= = !=最小值为1,最大值为100%
    节点运行状态=正常或者异常-
    磁盘使用率> >= < <= = !=最小值为1,最大值为100%
    入站流量> >= < <= = !=最小值为1,最大值为100000000kb/s
    出站流量> >= < <= = !=最小值为1,最大值为100000000kb/s
    磁盘io写入速度> >= < <= = !=最小值为1,最大值为100000000kb/s
    磁盘io读取速度> >= < <= = !=最小值为1,最大值为100000000kb/s
  • 当监控类型为节点时,监控项为:

    监控项为服务组件=异常,即监控集群/管理节点上的所有的服务,当任何一个服务出现问题时,均发出告警

    当监控类型为调度器时,监控项为:

    监控项条件阀值单位
    调度器节点状态=不可用/宕机默认值为宕机,可以多选-
    作业状态=运行中-
  • 监控指标说明: 调度器节点状态的监控指标的来源于集群监控-调度器监控-节点视图

  • 节点状态说明:

alloc、mix等为sinfo看到的调度器层面的节点状态

  • 可用=alloc+mix+idle+completing
  • 不可用(节点被管理员标记为不可用)=drain+resv+maint
  • 宕机=down+fail+error

告警通知

  • 发送通知:必选,选择是或者否
    • 当选择是时,则显示以下邮箱企业微信等设置
    • 当选择否时,则不显示邮箱企业微信等设置
    • 如果选择是,则会发送告警通知,如果选择否,告警时会在告警记录中生成一条记录,将不会发送告警通知
  • 添加邮箱
    • 显示用户列表,可以选择一个或者多个用户,已经选择的用户则置灰,不可再次选择
    • 用户列表权限说明:
    • 管理员可以看到所有用户列表,普通用户仅看到自己的用户,即管理员可以设置给所有用户发送邮件通知,普通用户仅可以给自己发送邮件通知
  • 测试:自动发送一条测试消息给邮箱或者企业微信
  • 添加企业微信
    • 输入企业微信机器人地址和备注信息
    • 企业微信机器人地址获取说明:
  • 配置飞书机器人:请查看配置飞书机器人文档
    • 配置飞书告警通知
    • 告警行为中支持添加飞书告警
    • 测试机器人:添加机器人地址之后,点击测试,如果机器人配置成功,可以收到一条测试消息
  • ​告警通知组
    • 新建组:新建组时,支持将企业微信、飞书绑定到组
      • 组名:必输,组名全局唯一
      • 描述:可选输入,输入描述信息
      • 成员、企业微信、飞书为可选输入
      • 校验规则
        1. 检测组的全局唯一,自动生成组ID
        2. 在组列表中增加一条组的记录
        3. 同时该组也映射到集群节点系统内的用户组,并且添加的成员和组的关系也会映射在集群节点系统中
        4. 组的通知方式中包括添加的所有成员的邮箱,以及添加企业微信和飞书
          即组不仅承担系统的用户组,也是一个告警通知组
          举例说明:比如添加组group1,成员包括test1、test2,test1的邮箱为test1@123.com,test2的邮箱为test2@123.com,则添加组之后,在集群节点中通过id查看test1和test2均在group1组中。如果有告警策略选择此组时,当告警发生时,也会将告警发送到test1@123.comtest2@123.com
      • 组管理列表:显示组ID、组名、描述、该组中存在的用户数、组中绑定的企业微信数、飞书数和组的创建时间
      • 操作:
        • 编辑:可以编辑描述、添加用户、添加企业微信、添加飞书
        • 删除:可以删除组
      • 告警通知:和组绑定的告警通知方式可以在组的详情中查看,并支持新增企业微信和飞书告警通知方式
      • 告警设置:新建、编辑告警策略时,支持选择组,如果选择组,则发生告警时,会通知组中所有的用户邮箱以及和该组绑定的企业微信和飞