Home

/

嘉为蓝鲸告警中心:助力大型保险集团实现告警规范管理

Post date:2024-06-12 15:48:33

分享到

为应对数字化转型的挑战,提升整体的IT运营和运维能力,金融行业数据中心管理体系也在一直发展、完善。我们认为大体分为两大阶段,即狭义数据中心监控管理,到广义数据中心监控管理阶段。其中广义的数据中心监控管理,更多是含从业务价值视角的全领域的建设。通过建立完善的监控告警管理规范,结合监控告警工具,可以提高系统的稳定性和可靠性,减少故障的发生和影响,提升业务价值。

某大型保险公司基于嘉为蓝鲸告警中心,构建了完善的告警管理规范,打造告警全生命周期管理体系,实现业务可用性提升。


01. 业务场景

该公司在多年的监控建设过程中,已陆续实现了网络设备监控、系统基础监控、中间件数据库监控、云平台监控、应用监控、动环监控,所有的监控告警管理规范和工具都由数据中心管理员进行管理,各领域管理岗和外包人员负责接收和处理监控过程中产生的告警。由于监控系统分散、涉及角色多,数据中心管理员较难进行规范管理。

缺乏专业工具支撑,告警的产生、流转、处理过程中需要耗费时间较长,响应和处理效率低下,对业务连续性使用会产生一定影响。同时因为各领域管理岗较为分散,对于告警的处理效率、人力成本等很难进行评估和量化。


02. 分析痛点

该公司有规范的管理流程,但缺少工具支撑管理,导致在实际业务场景中存在以下痛点:

1)工具无法匹配管理规范

基于企业对告警的管理规范,5级及以上的告警都能自动生成事件工单且由对应的人员处理,且会根据告警治理过程对规范进行优化,需要通过配置才能灵活适配规范。

2)告警信息不规范

由于监控系统多样性以及建设的时间较早,导致告警信息不规范,很多告警甚至缺少关键信息。

3)告警无法收敛导致工单过多

现有系统中,产生的告警60%以上都是重复告警。这些无效和重复的告警会导致创建的事件工单量大、告警通知量大,且需要在人工处理阶段花大量时间对重复的工单进行判断关联。事件单数量过多也不符合管理规范。

4)无法适配交易时间

金融业的业务系统跟交易时间关联较大,因变更和交易关闭时间,也会产生一些无效的告警,需要根据交易时间判断告警有效性。

5)变更导致告警风暴

变更过程或者变更过后,会产生大量告警,需要自动对变更产生的告警进行屏蔽。


03. 解决方案

1)结合告警管理规范,落地最佳实践

根据该公司的组织架构和管理规范,结合业务场景,通过配置和对接第三方系统,对整个告警生命周期管理实现了闭环。


2)结合CMDB实现告警丰富及告警动态分派

通过关联CMDB数据,实现告警信息的丰富和完善,并根据CMDB实例中的负责人信息,实现了告警动态流转,保证告警通知的及时性和准确性。


3)根据交易日历和变更进行告警收敛

根据交易日历和ITSM变更工单,修改告警收敛策略的时效性或者创建新的收敛策略,通过自动化手段尽可能地减少无效告警。


04. 成果展示

1)结合CMDB实现告警动态分派


2)根据ITSM变更工单创建告警屏蔽


3)交易日历控制抑制策略是否生效


05. 建设成效

  • 实现了多监控系统的告警进行统一生命周期管理,实现告警100%管理
  • 实现告警动态分派和准确触达,告警从产生到通知不到1分钟
  • 结合金融行业的特征实现告警收敛,减少了无效告警产生的资源浪费,告警收敛率达到70%
  • 多种自动化场景结合,减少日常人工维护和管理的成本;
  • 为告警治理提供数据支持,通过数据复盘实现各环节的优化。


06. 场景适用性

嘉为蓝鲸告警中心适用于告警生命周期管理的场景,结合企业告警管理规范,总结出企业最佳落地实践。适用于金融行业及其他更广泛行业进行告警高效处理、标准化实现业务系统持续可用的场景。适用有以下业务场景需求的企业:

  • 监控系统较多,没有集中管理告警的系统;
  • 告警数量较多且很多无效告警,告警处理效率低;
  • 告警产生跟交易开闭市时间有关联,需要根据交易时间对告警进行分别处理;
  • 原来监控告警没有完善的规范,管理较为混乱,想要规范化;
  • 告警处理过程中故障排查较难,希望有信息进行辅助排查;
  • 想要通过故障自愈实现一些固化场景,或者实现场景创新。

免费申请演示

联系我们

服务热线:

020-38847288

QQ咨询:

3593213400

在线沟通:

立即咨询
查看更多联系方式

申请演示

请登录后在查看!