01. 数字化转型与可观测的关系
在数字化转型的浪潮中,我们面临着将“线下业务线上化”及实现“业务快速创新迭代”的迫切需求,这也进而要求支撑业务的应用系统更加敏捷、可扩展性更高。
因而,分布式、云原生是企业应用架构的发展方向。
分布式架构下,各种IT对象如消息队列、缓存、分布式数据库等层出不穷,并且组件间的调用关系错综复杂。
此时,传统IT监控只能提供资源层面的状态警告,无法提供分布式应用故障诊断所需的更多有效信息,因此,一个面向应用面向故障的全栈可观测方案越来越成为企业IT运维的迫切需求。
02. 30年过去,终迎来第二代监控——可观测
IT监控作为IT运维之眼,是IT运维第一个建设的工具,追溯IT监控工具历史,已有30年之久。传统IT监控的发展,主要是在监控对象以及在监控能力(如指标、Log、Trace)的不断扩展,发展至今,已形成众多从IaaS到SaaS层的监控工具。据Gartner市场调研数据显示,超过70%的中大型企业拥有10个以上的IT监控工具,以满足各种IT监控需求。
监控工具越来越多,但每个监控工具却只能揭示业务和应用的部分问题,且工具能力重合、工具数据互为烟囱,这导致用户难以联动整合所有监控,面向整个业务和应用进行全面的故障诊断。
传统工具发展的这些瓶颈和问题在可观测体系中得到了完美解决。
传统监控与可观测的主要区别如下:
简单来讲,监控主要聚焦在感知,可观测还聚焦于问题出现之后诊断分析和隐患发现。
03. 基于四大支柱数据设计可观测体系
要做到面向应用、面向故障的可观测,我们需要为整个应用系统的生产运行拓扑进行建模,并将应用所有相关组件的各种观测数据进行有机聚合,因此,可观测体系设计的核心理念在于对Metirc、Log、Trace、Topology这四大支柱数据进行统一采集、统一治理和有机聚合。
这几个数据之间的关系如下:
基于上述理念,可抽象可观测的数据模型如下:
基于此设计,我们可以自动构建应用横纵向全景拓扑,感知应用故障点。
根据故障点实现上游故障影响分析和下游故障根因溯源。
04. 可观测成熟度模型
可观测既包含了传统监控的技术,又包含了基于数据和AI的统一数据治理与智能根因分析以实现端到端的监控与分析的能力。可观测体系的建设不是一蹴而就的,也不是将传统监控体系推倒重来,而是一个基于科学建设路径和方法逐步演进的过程。
可观测成熟度模型如下:
L1【基础可观测】
L2【应用可观测】
L3【因果可观测】
L4【主动可观测】
L5【业务可观测】
05. 可观测平台功能设计
可参考下图进行可观测平台的功能设计:
06. 可观测平台建设过程
建设重点1——观测元数据建模治理【Topology】
建设重点2——指标体系建模治理【Metric】
建设重点3——统一日志管理【Log】
可观测平台需要提供统一的、丰富的日志采集、清洗、检索与展示能力以覆盖各类设备日志管理需求。
建设重点4——APM实现故障追踪【Trace】
APM是分布式系统的关键监控能力,通过APM可以对应用的四个黄金指标进行监控,可以对服务件、服务与组件间的调用状态进行监控,还可以实现对服务接口级、方法级的故障发现与诊断分析。
建设重点5——实现告警的全生命周期治理【Alert】
基于统一告警中心的建设,实现一条告警的全生命周期流转闭环管控。
建设重点6——基于AI与LLM的智能可观测【AI】
通过集成AI能力实现动态阈值、告警聚合收敛、时序预测、日志聚类分析、多维下钻与根因定位等智能可观测能力。
基于LLM可以构建可观测智能小助手,如展示告警详情:
挖掘告警相关故障信息:
获取故障推荐和交互式故障自动化处理:
建设重点7——基于应用可观测向上构建业务可观测【Business】
在数字化时代,业务的稳定生产运行都会反馈到应用系统的各项运行指标上,运维的最核心目标也是保障业务的稳定生产运行。
当我们实现了应用可观测后,基于应用可观测能力去构建面向上层各类业务活动、业务场景的可观测,就会水到渠成且事半功倍。
业务观测领域中,最重要的是对各类业务交易场景以及各个应用系统的业务黄金指标进行监控,例如银行,有各种支付、转账、查额、还款等场景,这些交易的交易链路如何自动构建,如何监测每一笔交易的效率和质量,如何在交易异常的情况下迅速找到问题点并进行解决,是业务可观测的重点建设内容。
业界基于业务监控的有三大技术:APM的交易链路自动构建与黄金指标监测、应用标准化日志的交易链路自动构建与黄金指标监测、网络流量镜像分析的交易链路自动构建与黄金指标监测。
三者各有优劣点,如基于APM的技术面临着全量采集给应用带来的性能压力、基于日志则需要应用进行标准化日志输出的改造、基于网络流量则面临着网络丢包、数据量巨大和云原生SDN架构下的流量采集技术壁垒等问题。企业需要根据自己的实际情况选择合适的技术。
最后,业务可观测的技术还需要能够联动应用可观测,从而实现从业务指标到具体问题资源对象联动起来的根因定位。
07. 可观测平台三年建设计划建议
前面提到,可观测不是将现有监控推倒重来,而是基于现状进行规划建设。对于大部分传统企业而言,可参考以下三年建设计划:
第一年:感知&治理
第二年:定位&业务
第三年:智能&扩展
申请演示