01. 告警事件管理三个阶段
1)告警事件管理三大阶段
告警事件的全生命周期管理可以分为三大阶段:事前、事中、事后。其中事前核心关注的是预防以及发现问题;事中核心关注的是快速发现和解决问题,确保业务连续性,降低损失;事后核心关注的是问题的复盘、知识沉淀积累以及持续优化业务系统,确保业务健康运行。
2)告警事件管理关键指标
业界最常用定义告警事件本身全生命周期的核心指标包含MTBF(故障前平均时间)、MTTR(平均恢复、修复、响应或解决时间)、MTTF(平均故障时间)和MTTA(平均确认时间),这一系列指标可以帮助技术团队了解故障发生的频率以及事件恢复的速度。
嘉为蓝鲸告警中心(以下简称“告警中心”)基于CMDB模型和实例,以告警事件为中心,围绕告警接入、告警丰富、告警收敛、告警处理&通知以及告警分析对企业业务系统告警统一管理。以下为一条告警在告警中心的全生命周期的流转路径。
02. 告警中心产品功能
功能点1:告警接入
告警中心支持Zabbix、Prometheus、VMware、华为云、阿里云等20余种常见监控系统的标准化插件,开箱即用快速对接不同类型的监控系统。此外还支持通过REST API方式对第三方系统推送的告警进行接入。
功能点2:告警丰富
功能点3:告警收敛
对于企业中的告警风暴以及各类告警误报漏报的场景,告警中心具备成熟的告警收敛解决方案。包含自动去重算法、告警抑制、告警屏蔽、告警合并。这些收敛方案可根据不同的业务场景进行灵活配置使用,告警压缩占比高达90%以上。
① 自动去重算法
内置自动去重会根据一条告警的告警源ID、告警对象、告警指标以及告警等级四个字段信息使用哈希算法生成告警事件ID,相同ID的告警将被系统自动去重处理。
② 告警防抖抑制
防抖抑制主要针对抖动较高的指标例如CPU使用率,网卡流量等可以通过配置在一定周期内出现多少次才会产生一条有效告警。
③ 关联聚合抑制
可以根据自定义字段进行相同的告警进行抑制,例如:当业务名称、告警对象、告警指标、告警等级都一样的告警可以认为是同样的告警,通过这些字段对原始告警进行组合条件判断,相同则被抑制掉。
④ 时间屏蔽
时间屏蔽通常会在企业系统维护期内、业务系统需要的时候对告警进行集中屏蔽,避免大量告警产生和通知。
⑤ 依赖屏蔽
依赖屏蔽,顾名思义即通过自定义依赖关系,或根据CMDB中模型之间的关联关系进行屏蔽告警策略的配置。
例如当一台服务器的网卡发生告警时,此时该服务器上的交换机肯定也会产生一条告警。针对这类场景我们就可以根据这些对象的关联关系配置对应的依赖屏蔽策略,这样就可以减少干扰告警的产生。
⑥ 告警合并
告警合并功能针对企业中由于某一个故障导致产生大量与之相关的告警的场景进行合并处理。
例如,当某一业务领域的交易率偏低时,这往往可能归因于多种因素,如该业务所依赖的服务CPU使用率居高不下、服务响应时间显著延长等。当这些因素的告警信号同时触发时,为了提高处理效率,可以将它们整合为一条综合性的有效告警。
功能点4:告警处理
在经过一系列的告警收敛方案后,运维人员只需要关注和处理那些有效的告警。告警中心提供人工&自动处理方案,加快企业运维人员对告警事件的响应以及处理速率。此外,告警中心还具备丰富的通知渠道覆盖PC端以及移动端,让企业相关人员第一时间收到通知,及时感知系统问题。
① 自动关闭
针对一些可能并不影响系统的核心功能或并不是紧急问题的告警,比如:测试机器的性能告警、非工作日无需处理的告警。通过自动关闭策略可以减少对告警管理的工作量。
② 自动分派
可以根据运维管理要求自动将告警分派以及通知到对应的人/组/值班人员。
例如,当服务器宕机或者性能异常时,告警中心会自动分派给负责服务器维护的运维团队;当遇到交换机、路由器、网络设备故障告警时,系统将自动分派给网络运维团队。
③ 自愈处理
告警中心支持告警自愈处理能力,例如常见的自愈场景有服务器重启、日志清理、磁盘清理等。根据这些场景,可以分别使用对应的脚本去执行自愈流程。并且支持自愈流程参数的填写,可快速执行自愈脚本对故障进行处理。
④ 自动转工单
支持内置对接ITSM以及第三方工单系统,实现告警产生到生成工单的自动化处理方案。并且支持工单模版的创建,可以快速套用模版对工单参数进行快速填写,方便运维人员及时创建事件工单、变更工单等,加速告警故障问题的流转。
功能点5:告警通知
告警中心具备强大的告警通知能力,包含灵活的告警通知频率的配置、多样的告警通知渠道、自定义通知模版设置等。
① 通知频率
针对那些重要且紧急的告警,例如主机CPU使用率、磁盘使用率、网络不可达等核心关注的监控项,一旦触发警报,系统应被配置为立即发送紧急通知;当无人响应时,系统将按照一定周期进行循环通知、响应后告警持续未关闭的循环通知。
而对于那些相对不那么紧急,但仍需关注的预警信息,例如网络带宽使用率在70%左右达到预警时,这种告警可以延迟进行通知。
② 告警通知渠道
支持多样的通知渠道配置如常见的邮件、短信、ESB微信、语音、钉钉、企微/钉钉移动端、企微/飞书/钉钉群机器人、针对值班大屏使用的页面语音播报功能。
③ 告警通知模版
针对不同的通知场景可以自定义配置通知模版,可以按照企业告警通知要求进行配置,让告警更快更详细地通知到对应负责人。
功能点6:告警分析
① 关联拓扑
联动CMDB,根据对象模型以及实例自动拉取CMDB的拓扑关系图,并在产生告警的节点上标红处理,直观地了解故障上下游关联关系,快速定位故障影响范围。
② 告警报表
内置多类型、样式的统计报表模块,可直观查看告警统计数据以及各个人员的MTTA、MTTR指标情况。
③ 辅助分析
告警中心支持对接知识库以及工单系统,可以在告警产生后快速匹配关联的解决方案以及关联的历史变更工单,辅助运维人员对故障进行定位以及处理。
功能点7:智能处理
告警中心基于大模型算法能力,进一步加强告警处理的能力,降低运维门槛,加速故障处理速度和效率。
① 关联知识库
目前内置运维知识库,开箱即用。可批量导入知识库文件,基于大模型算法对知识库内容进行监督学习训练,实现将告警内容与知识库进行匹配,并且按照匹配度高低进行展示。
② 智能助手
使用大模型生成式AI能力,支持ChatGPT、LLaMa2等模型,通过对话式方式进行故障定位分析和推荐处理方案的建议。
申请演示