异常告警
(注:此部分内容仅适用于专业客户)
内容目录
什么是异常告警?
无论是服务性能监控还是完全监控,数象云还能帮助你在你关心的服务出现变化时提醒你,这就是异常告警功能。顾名思义,该功能分为异常和告警两部分。
异常
异常是相对于使用者来说的,例如服务访问时间5秒,对于一些服务来说是问题,而对于另一些服务来说则不是问题。那么首先就需要使用者来定义什么是异常。数象云基于对行业的理解,默认了一些服务的指标,方便使用者简单配置一下阈值便能定义异常。对于专业用户,也可以自定义异常指标。
阈值设置
基于不同的阈值定义,异常也分为 警告,错误,和 严重 3个级别。根据不同的级别,在收到告警通知时,可以方便处理人员了解工作的轻重缓急。
告警
发生异常后,可以通过不同的通知渠道通知到相关人员对该异常进行处理。并可以自定义告警的文本,方便告警处理人了解自己该进行什么操作。
告警名称
通过合理定义告警名称,可以让告警处理人一眼就看出是什么出问题。我们建议告警名称定义为异常的现象,如定义 “CPU>70” 告警名称 为 “xxx服务负载过高” 就优于仅仅描述为 “CPU大于70”
告警描述
告警描述其实相当重要,作为对告警名称的补充,其可以填写大量的详细信息,甚至可以把已有经验填写上,便于告警处理人快速了解情况。例如之前的”xxx服务负载过高”的告警描述就可以写为:”正在调查,暂时还不知道负载高的原因,请做一下操作:1.保存当前日志,2.做一个dump 3.查看使用高的线程 4.重启服务临时解决该故障”
通知渠道
通知发送给处理者的方式,目前支持
- 邮件
- 短信
- webhook
- 钉钉
- 其他通知渠道请联系客服
告警模板
数象云提供有通用的模板,但也可以根据自身需求定义模板。还可以给不同的渠道定义不同的模板以解决内容长度不同(如短信长度),格式不同(如邮件可以定义为HTML)的问题。