值得收藏|三种经典的指标监控模型

标准化做得好,监控就会变得更简单。这样既能快速实施部署,也能减少培训难度,遇到特定场景时识别和处置也变得更轻松,同时无形中还能够简化监控逻辑,降低监控自动化实施难度。

关于监控指标以及监控指标阈值的设置对于把握应用系统的现状和趋势、进行服务可用性的有效跟踪以及持续改善,甚至故障的排查和消除都至关重要。可是,监控指标那么多,哪些才是最应该被关注的呢?针对这个问题,业内有一些成熟的模型可供参考。

1、Google的黄金指标

Google在SRE Handbook中提到过“4个黄金信号”的概念,将需要重点关注的监控数据分为4类。

  • 延迟(Latency):表示请求所需花费的时间,注意成功请求的延迟和失败请求的延迟的区别。延迟较高通常不是好现象,这表示请求的响应时间较长,多数情况下这也意味着系统性能不佳,用户体验不好。
  • 流量(Traffic):表示系统承载的用户或交易的量级。流量对于不同类型的系统而言可能代表不同的含义,比如对基于Web的HTTP应用,此类指标可能表现为TPS或者QPS。流量指标通常可用来展现当前系统的负载状态和不同时段的负载情况。
  • 错误数(Error):表示当前系统发生错误的评价维度。错误一般可以分成显式错误和隐式错误。举例来说,HTTP 500错误就属于显式错误,而HTTP尽管返回200,但实际业务处理逻辑是错的,那么这种就是隐式错误。此类指标可以用来衡量系统的运行质量。
  • 饱和度(Saturation):表示当前资源使用的饱和情况。通常情况下,资源达到饱和状态,服务的性能就会下降。比如磁盘的写性能是100M/s,如果此时I/O饱和度已经很高,那么并发场景下必然有些I/O操作会处于阻碍状态。这类指标可以用来衡量系统资源使用率。

这4类指标可以帮助衡量用户体验、服务中断、系统可用性和系统可靠性等方面的状态。

2、RED方法

对于Web类应用的监控指标,可以参考RED方法。RED方法是由Weave Cloud在Google的4类黄金指标基础之上提出的,它重点关注应用请求相关的3个关键指标,希望由此涵盖Web服务(也是占比最高的服务类型)的相关问题。这3个关键指标如下所示。

  • Rate:每秒服务处理的请求数。
  • Errors:每秒失败的请求数。
  • Duration:每个请求所花费的时间。

RED方法是以请求为中心,聚焦用户在使用Web服务时所应关注的重点,通过这三项指标,我们就能监测到通常情况下影响客户使用体验的关键信息。

3、USE方法

RED方法中并不包含与资源使用率相关的项,如果需要同时关注此部分内容时则可以考虑使用USE方法。 USE方法的全称是“Utilization, Saturation and Errors Method”,具体指标包括下列三项。

  • 资源使用率(Utilization):系统资源的使用率信息,比如CPU、内存、网络、磁盘I/O等。如果某项资源使用率持续较高,那么通常说明其存在一定的性能瓶颈。
  • 资源饱和度(Saturation):与Google的4个黄金信号中的饱和度意义相同。
  • 错误(Errors):与错误相关的指标统计信息。
发表评论

相关文章