如何构建您的监控仪表板?

2021-06-07 06:44:41

你建立一个很棒的产品。您将其作为服务提供。您可以为客户端定义质量和性能服务级别协议(SLA)。您可以部署监控以跟踪服务级别指示器,以确保您满足您的SLA。

现在您想要创建监控仪表板。可视化您收集的指标并理解您的产品的行为。你该怎么做?什么仪表板要创造?您应该在每个仪表板中添加哪些指标?

所有度量标准,一个仪表板:一个图像值1字,因此您在一个仪表板中添加1000个小图表。想知道为什么指数或趋势错过了。

度量图表/面板之间没有相关性或流量:仪表板凝聚力无关紧要。根据您记得的绘图指标,然后按任何级别和图层中的任何顺序。迫使您的团队在仪表板上花时间扫描相关的公制面板距离相隔较远。想知道为什么没有人使用仪表板。

不要汇总度量标准:绘制每个进程/服务器/服务实例的每个面板上的单独行。您有100个服务实例是否报告响应时间?在响应时间面板上绘制100行。想知道为什么很难评估整体系统行为。

在同一面板中的不同级别中的指标:在同一面板中混合基础架构和应用程序级度量。绘图服务实例计数和同一面板中的响应时间。绘制同一面板中的进程和错误率的数量。想知道为什么面板很难阅读。

没有变量,没有深入钻取:它是它的。请勿提供任何可变参数或钻取浏览选项,以为某个客户/服务/环境选择和查看度量标准。假设将克隆仪表板以及每个新克隆中的任何此类选择。想知道为什么找到原始仪表板的越来越困难。

否概述仪表板:为每个度量级别创建单独的仪表板。为每个组件创建一个单独的仪表板。使您的团队经历3个仪表板和精神上的链接业务,以应用于确定整体系统健康的基础设施指标。想知道为什么船上新的团队成员永远带走。

概述仪表板:构建仪表板以快速概述系统的运行状况。提供一个顶面板柚木,显示最高级别的指标,指示系统性能(或我们正在跟踪的内容)。在该面板上一目了然,应该指示事情是否可以与我们的系统不正常。

自上而下的结构:行和列中的结构仪表板面板。从顶行的最高级别指标开始,并在添加其他行时缩小度量级别。例如。业务影响的指标将是顶板行之一,然后是应用指标,并且基础设施将是最后一个。

每个组件列:如果可能,每组组件或处理阶段一列面板。在同一行上绘制不同水平排列面板中的每个组件/相位的相同度量。如果系统出现问题,您应该从仪表板上的第一次浏览一眼。第二目,您应该看到哪个组件/处理阶段有问题。三眼一看,您应该看到问题来源。

左右结构:当您向右导航仪表板时,如果可能,面板应根据系统中的数据流绘制指标。您应该能够快速识别数据流中的位置存在问题。

变量参数和钻取:使用变量参数和钻取菜单选项提供将指标显示的选项限制为特定客户端,服务或环境。当问题仅存在各个客户端或服务时,这非常有用,并且启用工程师在调试时专注于它们。

个人详细的仪表板:为单独的仪表板提供调试各个服务和组件。他们应该能够使用特定服务或组件进行深度潜入和调试问题。为您的个人仪表板保持相同的自上而下的左右结构。跨仪表板的一致性会降低调试工作。