Link 搜索 Menu Expand Document

异常告警


(注:此部分内容仅适用于专业客户)

内容目录

  1. 异常告警
    1. 什么是异常告警?
      1. 异常
        1. 阈值设置
      2. 告警
        1. 告警名称
        2. 告警描述
        3. 通知渠道
        4. 告警模板

什么是异常告警?

无论是服务性能监控还是完全监控,数象云还能帮助你在你关心的服务出现变化时提醒你,这就是异常告警功能。顾名思义,该功能分为异常和告警两部分。

异常

异常是相对于使用者来说的,例如服务访问时间5秒,对于一些服务来说是问题,而对于另一些服务来说则不是问题。那么首先就需要使用者来定义什么是异常。数象云基于对行业的理解,默认了一些服务的指标,方便使用者简单配置一下阈值便能定义异常。对于专业用户,也可以自定义异常指标。

阈值设置

基于不同的阈值定义,异常也分为 警告错误,和 严重 3个级别。根据不同的级别,在收到告警通知时,可以方便处理人员了解工作的轻重缓急。

alert_threshold.png

告警

发生异常后,可以通过不同的通知渠道通知到相关人员对该异常进行处理。并可以自定义告警的文本,方便告警处理人了解自己该进行什么操作。

告警名称

通过合理定义告警名称,可以让告警处理人一眼就看出是什么出问题。我们建议告警名称定义为异常的现象,如定义 “CPU>70” 告警名称 为 “xxx服务负载过高” 就优于仅仅描述为 “CPU大于70”

告警描述

告警描述其实相当重要,作为对告警名称的补充,其可以填写大量的详细信息,甚至可以把已有经验填写上,便于告警处理人快速了解情况。例如之前的”xxx服务负载过高”的告警描述就可以写为:”正在调查,暂时还不知道负载高的原因,请做一下操作:1.保存当前日志,2.做一个dump 3.查看使用高的线程 4.重启服务临时解决该故障”

通知渠道

通知发送给处理者的方式,目前支持

  • 邮件
  • 短信
  • webhook
  • 钉钉
  • 其他通知渠道请联系客服

告警模板

数象云提供有通用的模板,但也可以根据自身需求定义模板。还可以给不同的渠道定义不同的模板以解决内容长度不同(如短信长度),格式不同(如邮件可以定义为HTML)的问题。


继续阅读