可观测(Observability)作为现代运维理念,相较于监控,不仅仅是问题的发现,更加强调系统在运行时应具备全面的、深入的、可理解的状态获取能力。通过收集和分析系统的各种可观测数据(涉及指标、日志、Traces、事件、告警等数据),构建一个全方位监控与分析体系,让运维团队能够在复杂多变的 IT 环境中实时了解系统内部的健康状况、性能表现以及故障原因。
嘉为蓝鲸全栈智能观测中心·鲸眼(以下简称“全栈智能观测中心”)作为嘉为倾力打造的一款全栈可观测产品,经过持续的沉淀和迭代,目前已经实现了业务全栈系统资源监控、K8s容器监控、云平台监控、硬件设备监控、网站服务拨测、日志统一管理、应用性能观测、业务场景监控、告警闭环管理等多个领域的可观测。
01. 产品场景介绍
1)系统监控
基于CMDB的业务和业务资源(主机、数据库、中间件等业务资源件)的全栈系统资源监控,一眼看全。
从业务的视角入口,呈现业务资源拓扑,支持拓扑节点下钻指标、告警详情视图。同时支持从资源的视角切入,直接按资源类型展示所有资源的监控情况。
2)容器监控
基于容器形态的资源探针,实现容器及容器内运行组件资源的指标和日志的统一监控,云原生必备监控利器。
① 容器指标监控
② 容器日志监控
③ 云监控
云资源视角的跨云平台监控,实现私有云、公有云的统一监控告警管理;云上云下资源一体化监控。
支持VMware、FusionCompute、云宏、阿里云、腾讯云等多种云平台开箱即用;支持单云视角和跨云视角两种资源展示模式;针对私有云支持自动发现资源实例的关联拓扑,辅助问题排错定位。
④ 硬件监控
通过标准协议SNMP、IPMI、Syslog、Trap实现硬件设备的指标、日志、告警的统一监控。
⑤ 硬件指标监控
⑥ 硬件日志监控
⑦ 网络拓扑管理:支持用户自定义网络拓扑,并结合拓扑自动发现能力,自动辅助绘制网络拓扑图,掌握企业全局网络概况。
5)网站拨测
基于业务的视角,通过远程访问协议HTTP(s)、TCP、UDP、ICMP(Ping)对应用服务和网站进行黑盒监控,实现业务最基础的存活监测。
6)日志统一管理
针对日志数据的统一接入、统一配置策略、统一查看检索的统一日志管理,打通运维排障“最后一公里”。
支持主机操作系统、容器环境下的日志采集,内置多种日志采集模板;存量日志支持通过ES、Kafka的方式接入支持kafka接入,进行统一接入和管理。
① 支持日志指标和关键字监控,并支持聚类智能指标监控。
② 日志检索,支持AI算法智能聚类、联合等检索模式,并支持检索脱敏。
7)APM
分布式服务调用链路监控,自动生成服务调用拓扑,从应用、服务、接口、调用 4个层次层层深入,监控应用的健康状态和调用性能;并支持基础资源监控进行联动和下钻分析,辅助问题根因分析,提升问题定位效率。
支持应用服务调用视角、应用资源关联视角、服务分析视角、接口分析视角、Trace调用链路视角多视角分析查看和追踪问题。
8)业务监控
以业务场景作为切入口,串联跨应用的系统调用,打通关联应用内服务的调用关系,追踪每一次活动轨迹。
9)统一告警
面向企业ECC、监控组、运维人员等,基于告警事件的生命周期,实现告警管理的闭环,提升团队效率,保障业务稳定。
提供一站式告警处置平台:包含告警事件统一接入、告警丰富、告警压缩(去重、合并、抑制和屏蔽)、告警处理(自愈和派单、通知)、告警关闭的闭环管理,以及告警事件的统一查询、报表统计、关联分析,辅助问题定位。
02. 产品能力介绍
为了实现上述各种观测场景的落地,产品设计上结合PaaS+SaaS的理念,抽象各个场景的公共能力,融合成一套底层能力框架,并且能够和企业内的运维体系工具联动集成,支撑上层的场景扩展,以适应企业不断变化的可观测场景和管理诉求。图中由下而上,依次是监控对象、数据集成、数据中台、能力中心、观测场景五层以及外部集成模块。
基于上述功能架构规划设计,本文将从对象和指标管理、插件集成管理、策略配置管理、告警视图管理、场景视图管理5个基础能力层面介绍当前全栈智能观测中心的功能。
1)对象和指标管理
① 对象模型
引入监控对象模型作为指标管理的载体,连接对象和指标。对于监控对象模型设计如下图:
② 承载对象模型的分层体系
利用监控对象模型的树形分层设计,对应运维对象的分层体系,实现对象模型的建模和分层设计。例如对于组件服务层下的数据库,我们可以抽象出 MySQL、MSSQL、Oracle 等一系列监控对象,从而构建3层乃至4层的对象模型设计,灵活设配企业内的分层管理诉求。
③ 联动 CMDB,关联资源实例
监控对象模型通过与 CMDB 模型关联,将 CMDB 模型下的资源实例,纳管为监控对象模型实例,实现监控对象模型与资源实例的关联。
④ 关联插件采集,落地指标体系
监控对象模型通过关联插件或指标上报任务等方式关联指标,并以此作为指标数据的获取方式,确保这批指标都是真实可采集、可获取、可度量的指标,从而建设属于该对象的指标体系。
⑤ 指标管理
基于对象进行指标管理,支持指标的分类、名称、描述、单位、等级、数据类型的管理,支持枚举类型的指标值映射管理,实现状态指标翻译展示。
支持衍生指标管理,基于插件原生指标计算定义新的衍生指标,指标计算能力支持单指标函数计算、多指标四则运算、复杂规则的PromQL计算,灵活适配各种衍生计算指标的应用场景。
⑥ 动态分组
基于属性条件对监控对象进行分组,具备动态更新的特性,可实现监控目标根据CMDB的实例变化自动应用或者取消监控。
2)插件集成管理
通过插件、协议、SDK等多种数据接入的方式,支持企业全栈观测数据(指标、日志、Traces、告警)接入。
① 指标接入
除内置的操作系统、云平台、K8s容器、协议拨测等指标采集能力之外,还支持多种自定义接入的方案,并且均支持产品页面直接进行插件制作和调试。
② 日志接入
支持主机操作系统、容器环境下的日志采集,内置多种日志采集模板;存量日志支持通过ES、Kafka的方式接入支持Kafka接入。
③ Trace接入
支持Skywalking和OT协议探针接入。
④ 告警接入
默认支持RestAPI推送接入,支持页面编写告警源插件的方式接入,插件支持推送和拉取两种模式,内置常见监控系统接入插件。
3)策略配置管理
监控策略:支持设置策略的基础信息、监控目标、检测配置、告警配置4种配置,如下:
4)告警视图管理
实时刷新的活动告警列表,支持自定义展示字段和多种筛选条件,并支持告警实时检索和自定义告警视图,满足ECC、管理员等多种角色的查看诉求。
分析视角的告警详情,支持详情、指标、关联告警、拓扑关联、流转记录统一查看,一站式告警分析。
基于对象/业务的告警分类统计分析,并内置提供常用的告警统计报表,跟踪企业告警治理效果。
详细的告警全生命周期闭环管理后续将在专门的专题文章中进行具体介绍。
5)场景视图管理
除了本文开头说到的内置观测场景,还支持自定义场景,可基于监控对象模型管理,可自行扩展每种对象的监控场景视图,满足企业持续发展的诉求。
数据检索,支持指标、日志、Trace检索,支撑问题排错追踪,探索挖掘数据价值。
集成Grafana仪表盘,支持按照用户个人喜好,定制自己专属的指标、日志仪表盘。
基于上述介绍的对象、采集、策略、告警、视图5大基础能力模块,便可以自由构建企业中所需的观测场景。接下来我们将基于观测场景视角,详细介绍告警全生命周期管理、基础组件监控、容器监控、云平台监控、硬件监控、网站服务拨测、日志统一管理、调用链追踪、业务监控9大观测场景,敬请期待。
申请演示