监控系统的本质是通过发现故障、解决故障、预防故障来为了保障业务的稳定。而要想在企业内实现监控系统的体系化建设落地,需要从以下三个方面着手建设,分别是监控技术体系、监控指标体系、监控管理体系。
01. 监控技术体系
一般来说,一个完整的监控系统,可以抽象为采集+数据+算子+告警四个基本模块,缺一不可。
1)采集
① 采集方式
数据采集方式一般分为Agent模式(Agent-based)和非Agent模式(Agentless);
Agent模式包括各种插件采集、各种格式的脚本采集、主机日志采集、主机进程采集、APM探针和SDK等;
非Agent模式包括SNMP、IPMI/Redfish、SSH、JMX、ODBC/JDBC、Syslog、ICMP、HTTP(s)、TCP/UDP、SMTP等各种通用协议的数据采集。
② 采集频率
采集频率一般有分秒级、分钟级之分,常用的采集频率为分钟级;同时也有基于条件触发式的随机采集或上报。
关于分钟级与秒级也有不少争论,常有人认为越快越好,认为越快就能更快发现问题。但是秒级的采集频率的增加,这对目标机器性能的影响也会增加,若因为数据采集导致业务性能本身出现问题,这就本末倒置了。而且,随着数据量加倍,存储成倍增加,计算量级指数型增长,带来的成本损耗可能远超秒级监控带来的好处。
在实际的应用场景中,需要思考使用秒级频率是否真的值得,是否能带来对应的业务价值。秒级监控是监控系统的一种必备的能力,但并不是所有的指标都需要秒级监控,需要挖掘真正的价值场景,而不是为了秒级而秒级,白白浪费资源,徒增维护成本。
③ 采集传输
采集传输按传输发起模式分类有主动采集Pull(拉)、被动接收Push(推);按传输链路分类有直连模式、Proxy传输。其中Proxy传输不仅能解决监控数据跨网传输的问题,还可以缓解监控节点数量过多导致出现的数据传输的瓶颈,用Proxy机制实现数据传输负载分流。
2)数据
① 数据类型
监控的数据类型有指标(Metrics)、日志(Logs)、调用链(Traces)三种类型。指标数据是数值型的监控项,主要是通过维度来做标识;日志数据是字符型的数据,主要是从中找一些关键字信息来做监控;调用链数据反馈的是跟踪链路一个数据流转的过程,观察过程中的耗时性能是否正常。
由于数据类型不同,也衍生出了三类不同的监控系统。指标类型的监控,典型代表比如Zabbix、普罗米修斯。日志类常见的监控系统有ELK、Splunk等,主要关注日志类数据的分析和监控。调用链是通过TraceID来追踪请求的过程来进行监控,即APM(应用性能监控),例如Dynatrace、Skywalking等。
② 数据存储
对于监控系统来说,主要有以下三种存储供选择:
③ 数据视图
数据视图主要是将监控的数据以一种人类便于理解的方式呈现出来,面向不同的角色会有不同的呈现方式,例如领导、管理员、值班员等关注的点都不一样。常见的数据视图模式有以下几种:
3)算子
① 数据加工
数据加工一般分为:数据清洗、数据计算、数据丰富、指标派生。
② 数据检测
有固定规则和AI算法。固定算法是较为常见的算法,静态阈值、同比环比、自定义规则,而机器学习主要有动态基线、毛刺检测、指标预测、多指标关联检测等算法。无论是固定规则还是机器学习,都会有相应的判断规则,即常见的< > >=和and/or的组合判断等。
4)告警
① 告警收敛
告警收敛有三种思路:抑制、屏蔽和聚合。
② 告警通知
对于一个成熟的监控,还需要支持自定义通知渠道扩展(比如企业里有自己的IM系统,可以自行接入)
关于上述4个方面便是一个站在技术的角度对监控系统的一个抽象,但是要落地监控系统,仅仅依靠一个技术强大的工具是远远不够的;接下来介绍的将是监控系统的核心数据管理—监控指标体系。
02. 监控指标体系
为什么要搭建指标体系?通过指标体系监测应用运行的状况,最大的价值就是高效利用时间,把时间花在解决问题上,而不是寻找问题上,从而提高整体的人效。指标体系的输出结果应当是一份指标字典,需要至少满足以下要求:
1)核心理念
2)体系设计
从企业业务应用的视角出发,一般将企业监控的对象分为6层:基础设施层、硬件设备层、操作系统层、组件服务层、应用性能层、业务运营层;也可以根据企业自己的情况进行调整。

① 基础设施层
② 硬件设备层
③ 操作系统层
④ 组件服务层
⑤ 应用性能层
⑥ 业务运营层
⑦ 指标分级管理
根据上述梳理的指标清单,对于指标本身也建议能够做一个分级管理。一般分三级,按重要程度区分:核心指标、关键指标和常规指标。
核心指标一定要配置告警基线,关键指标建议配置,而常规指标可以按业务场景考虑是否配置。后续通过不同指标的分级、权重,便可以很容易地建设起企业内地应用健康评估模型,衡量整个应用的健康情况。
通过上述分层分类的指标体系设计,可以对企业内的指标进行一个清晰的归纳和管理,再结合一套优秀的监控工具,便可实现企业IT资源应用的无死角监控,但要想监控系统在企业内实现长治久安,甚至不断进化,还得搭配下面即将介绍的监控管理体系。
03. 监控管理体系
监控的管理最重要的便是告警闭环管理,很多企业建设了很多套监控系统,都能产生告警,但是告警之后呢?没有然后了。对于监控体系的落地,运营管理比系统建设更加重要。只有将监控系统产生的告警治理起来,监控系统才能发挥其应有的价值,监控体系化建设过程才能出现正向的进化,而不是用着用着就没用了。
1)告警闭环管理
告警事件的闭环管理可以分为三个大的阶段,事前、事中、事后。事前核心关注发现问题的发现和预防,提示告警处理的效率;事中核心关注快速发现和解决问题,快速恢复业务,保障业务连续性,降低损失;事后核心关注问题的根因复盘,优化告警预防的方案和下次告警处理的效率。

① 告警预防管理(事前)
告警预防阶段,主要是针对可能出现的问题进行规避,核心是评估、调优、监测和预案。
② 告警处理管理(事中)
告警处理阶段流程最为复杂,又可以分为告警感知、告警响应、告警定位、告警恢复4个过程。
在具体谈告警处理之前,先说说告警分级,只有对告警提前进行分级,才能在告警发生时有条不紊,采取不同的应对策略。告警一般分为三级,致命、警告、提醒。致命告警一般代表服务已经异常,需要马上进行处理;警告告警一般代表如果不进行及时处理,服务即将异常;提醒告警一般代表一些潜在问题,需要开始关注或提前采取行动,避免异常产生。另外,告警分级的设定的影响因子也有很多,一般来说对象等级、指标等级、所属环境(生产/测试/准生产等)、业务重要性等为核心考虑因子。
③ 复盘改进机制(事后)
告警复盘改进也可以分3个部分,分别是问题复盘、经验积累、改进优化。
为了更好的落地监控体系,还得有建设成果的衡量指标,主要可以从监控覆盖广度和告警处理效率两方面来看。
2)运营管理指标
① 监控覆盖率
主要是监控对象采集覆盖率、监控指标覆盖率两个指标,主要衡量监控的推广使用情况。监控对象采集覆盖率一般通过监控任务覆盖的对象实例数和CMDB中该对象的实例总数进行对比得出;监控指标覆盖率,一般是某个实例的规划指标总数和该实例的采集指标数进行对比得出。
② 告警处理指标

从告警生命周期的过程来看,会有告警发生时间、发现时间、响应时间、诊断时间、告警处理开始时间到告警恢复时间等关键时间节点,衡量告警管理会有如下几个关键指标。
告警管理的根本目标便是降低MTTA,缩短MTTR,提升MTBF。即:快速发现并响应故障;快速定位并解决故障;减少故障发生,提升业务连续性。
其中的MTTA、MTTR便是运维团队工作的告警处理的最好衡量指标,直接反馈了团队的告警处理效率和告警处理能力。
【腾讯蓝鲸社区活动】嘉为蓝鲸吴文豪详解BlueKing Lite:轻盈与智能的运维之旅
2025-12-01
查看详细
嘉为蓝鲸DevOps消息中心:通知精准触达,协作全程不脱节!
2025-12-01
查看详细
嘉为蓝鲸WeOps上新 | WeOps V5.28&V4.28:服务台门户主题上新,提单更快、体验更简!
2025-11-21
查看详细
嘉为蓝鲸DevOps多租户管理:隔离安全可控,定制随需而变,多团队协作互不干扰!
2025-11-21
查看详细
嘉为蓝鲸制品库仓库回收站:保障制度安全,提升管理灵活性
2025-11-14
查看详细
【CMDB系列】CMDB纳管容器详解
2025-11-14
查看详细
申请演示