量化:监控系统 4 大黄金指标(摘录)

Four Golden Signals 是 Google 针对大量分布式监控的经验总结,4 个黄金指标可以在服务级别帮助衡量终端用户体验、服务中断、业务影响等层面的问题。主要包括四种类型的指标:延迟,通讯量,错误以及饱和度。

黄金指标

  1. 延迟:服务请求所需时间
    记录用户所有请求所需的时间,即请求的响应时间。在这里,要区分成功请求的延迟时间和失败请求的延迟时间,避免两个时间相互影响。可以使用在“百分位数”来进行量化,如 50 分位、75 分位、90 分位、95 分位及 99 分位数。

  2. 通讯量:监控当前系统的流量,用于衡量服务的容量需求
    通讯量通俗地理解为系统的 QPS 或 TPS。

  3. 错误:监控当前系统所有发生的错误请求,衡量当前系统错误发生的速率

  4. 饱和度:衡量当前服务的饱和度
    主要强调系统资源的使用情况,如内存、I/O 及网络等等。

RED 方法

RED 方法是 Weave Cloud 在基于 Google 的 “4个黄金指标” 的原则下结合 Prometheus 以及 Kubernete s容器实践,细化和总结的方法论,特别适合于云原生应用以及微服务架构应用的监控和度量。主要关注以下三种关键指标:

  • (请求)速率:服务每秒接收的请求数;
  • (请求)错误:每秒失败的请求数;
  • (请求)耗时:每个请求的耗时。

在 “4大黄金信号” 的原则下,RED 方法可以有效的帮助用户衡量云原生以及微服务应用下的用户体验问题。

USE 方法

USE 方法全称 “Utilization Saturation and Errors Method”,主要用于分析系统性能问题,可以指导用户快速识别资源瓶颈以及错误的方法。USE 方法主要关注系统资源:使用率( Utilization)、饱和度 (Saturation)以及错误 (Errors)。

  • 使用率:关注系统资源的使用情况。 这里的资源主要包括但不限于:CPU,内存,网络,磁盘等等,100% 的使用率通常是系统性能瓶颈的标志;
  • 饱和度:例如 CPU 的平均运行排队长度,这里主要是针对资源的饱和度,任何资源在某种程度上的饱和都可能导致系统性能的下降;
  • 错误:错误计数。例如:“网卡在数据包传输过程中检测到的以太网网络冲突了14次”。

通过对资源以上指标持续观察,通过以下流程可以知道用户识别资源瓶颈:
USE-method


参考:


1. 最佳实践:4个黄金指标和USE方法