为应对数字化转型的挑战,提升整体的IT运营和运维能力,金融行业数据中心管理体系也在一直发展、完善。我们认为大体分为两大阶段,即狭义数据中心监控管理,到广义数据中心监控管理阶段。其中广义的数据中心监控管理,更多是含从业务价值视角的全领域的建设。通过建立完善的监控告警管理规范,结合监控告警工具,可以提高系统的稳定性和可靠性,减少故障的发生和影响,提升业务价值。
某大型保险公司基于嘉为蓝鲸告警中心,构建了完善的告警管理规范,打造告警全生命周期管理体系,实现业务可用性提升。
01. 业务场景
该公司在多年的监控建设过程中,已陆续实现了网络设备监控、系统基础监控、中间件数据库监控、云平台监控、应用监控、动环监控,所有的监控告警管理规范和工具都由数据中心管理员进行管理,各领域管理岗和外包人员负责接收和处理监控过程中产生的告警。由于监控系统分散、涉及角色多,数据中心管理员较难进行规范管理。
缺乏专业工具支撑,告警的产生、流转、处理过程中需要耗费时间较长,响应和处理效率低下,对业务连续性使用会产生一定影响。同时因为各领域管理岗较为分散,对于告警的处理效率、人力成本等很难进行评估和量化。
02. 分析痛点
该公司有规范的管理流程,但缺少工具支撑管理,导致在实际业务场景中存在以下痛点:
1)工具无法匹配管理规范
基于企业对告警的管理规范,5级及以上的告警都能自动生成事件工单且由对应的人员处理,且会根据告警治理过程对规范进行优化,需要通过配置才能灵活适配规范。
2)告警信息不规范
由于监控系统多样性以及建设的时间较早,导致告警信息不规范,很多告警甚至缺少关键信息。
3)告警无法收敛导致工单过多
现有系统中,产生的告警60%以上都是重复告警。这些无效和重复的告警会导致创建的事件工单量大、告警通知量大,且需要在人工处理阶段花大量时间对重复的工单进行判断关联。事件单数量过多也不符合管理规范。
4)无法适配交易时间
金融业的业务系统跟交易时间关联较大,因变更和交易关闭时间,也会产生一些无效的告警,需要根据交易时间判断告警有效性。
5)变更导致告警风暴
变更过程或者变更过后,会产生大量告警,需要自动对变更产生的告警进行屏蔽。
03. 解决方案
1)结合告警管理规范,落地最佳实践
根据该公司的组织架构和管理规范,结合业务场景,通过配置和对接第三方系统,对整个告警生命周期管理实现了闭环。
2)结合CMDB实现告警丰富及告警动态分派
通过关联CMDB数据,实现告警信息的丰富和完善,并根据CMDB实例中的负责人信息,实现了告警动态流转,保证告警通知的及时性和准确性。
3)根据交易日历和变更进行告警收敛
根据交易日历和ITSM变更工单,修改告警收敛策略的时效性或者创建新的收敛策略,通过自动化手段尽可能地减少无效告警。
04. 成果展示
1)结合CMDB实现告警动态分派
2)根据ITSM变更工单创建告警屏蔽
3)交易日历控制抑制策略是否生效
05. 建设成效
06. 场景适用性
嘉为蓝鲸告警中心适用于告警生命周期管理的场景,结合企业告警管理规范,总结出企业最佳落地实践。适用于金融行业及其他更广泛行业进行告警高效处理、标准化实现业务系统持续可用的场景。适用有以下业务场景需求的企业:
申请演示