Link 搜索 Menu Expand Document

完全监控(TM)


关于完全监控

完全监控是相对于服务性能监控(SPM)而言。服务性能监控主要是从外部观测服务系统,确保其各方面性能满足设定预期,而完全监控则是帮助服务提供者和企业服务的运维人员从内部方方面面对提供服务的各个部分和组件进行全面的监控。

完全监控包括几个不同的维度。

服务系统组成维度

要全面的监控一个服务系统,我们应该从下至上进行如下观测:

  1. 基础设施的观测。基础设施运行状态是否正常,是否提供足够资源供上层应用系统使用,是否需要进行扩容或裁剪等等。
  2. 资源观测。资源是对上层应用系统所需使用的各种底层能力的抽象。资源由相关基础设施或设备提供,可同时被一个或多个上层应用系统进行使用。典型的资源如计算资源,存储资源等。资源使用状况和响应状况直接会反应到上层应用系统的运行状况中。
  3. 应用服务观测。应用服务是企业对外提供服务的最上层逻辑组成部分。应用服务有着复杂的实现和交互逻辑,往往需要使用多个底层资源保证其运行,且其运行状态和性能直接反应到企业服务的可用性,可靠性上。

数据类型维度

在对每一种目标进行观测时,我们应该考虑采集不同类型的观测数据,以获得全面的观测效果

  1. 性能指标数据:反应被观测对象的瞬时状态的数值型数据
  2. 事件异常数据:被观测对象可能产生各种状态转换事件或在观测过程中发生异常状态及其上下文信息
  3. 日志追踪数据:被观测对象产生的详细日志及相互调用的追踪,与上述信息一起方便可能的问题定位和性能分析等
  4. 其它信息:如配置信息等

为了完成上述全维度,全面的数据观测,在使用完全监控服务时,用户需要安装一个或多个数据采集器

安装数据采集器后,用户可以使用系统已有的监控插件根据需要创建不同的监控实例,这些监控实例将所需完成的观测任务下发到对应的数据采集器完成数据采集后通过展示组件呈现给用户。

鉴于完全监控的复杂程度,为了方便用户使用,我们将完全监控的按被观测系统底层构建方式的不同分为两大类:

  1. 基于传统基础设施的完全监控
  2. 基于Kubernetes的完全监控

在一个现代企业系统中,用户往往需要同时使用上述两种类型的技术栈,此时用户可通过择维士丰富的用户面板功能进行灵活方便的整合与展现。

此外,为了方便使用系统的强大数据分析处理能力,在界面上为用户提供一下菜单功能:

  1. 数据分析:用户可在此对系统中的各种时序数据进行查看,分析和处理,并根据处理结果创建、添加面板和展示插件
  2. 事件日志:用户可在此对系统采集的各种事件、日志等非数值型数据进行查看、分析和处理。

在接下的部分中,我们会对这些提到的功能进行更详细的介绍说明。


继续阅读