Home

/

“运维”走向“运营”,业务支撑先进模式助推省级运营商高质量发展

Post date:2024-06-12 14:20:45

分享到

01. 运维挑战日益凸显,转型迫在眉睫

随着业务的高速发展,微服务、容器等新技术已在悄然之中快速应用创新。某省级运营商内部新老系统并行,架构和交易调用过程复杂,现存的监控手段分散,无法实现端到端交易全透明。

而智慧中台虽不断持续建设,但过程中IT新旧架构并存,IT范围从B域向大数据域、M域、O域扩张,加上IT对象多元化等变化,让运维面临的挑战日益凸显:

  • 运维边界明显扩大,运维人员没有增加,如何保障业务持续稳定运行?
  • 系统复杂度持续增加,如何快速定位故障?
  • BOM域上中台,如何保障B\O\M域的运维需求?
  • DevOps模式下,如何快速构建运维能力,赋能开发、运营等团队,创造价值?

面对巨大挑战,该运营商迫切需要全新的IT运营管理支撑体系,通过自动化+智能化+敏捷化运维支撑,以及开放共享的平台化能力,推动传统运维向“主动服务、主动运营、主动赋能”云化运维模式转型,确保IT运维、业务支撑等工作的高效协同开展。

经过不断比对与论证,该运营商最终携手嘉为蓝鲸,引入蓝鲸平台作为技术底座,沉淀集中监控、集中运维、集中操作、集中流程、集中调度运维基础能力,打造能力领先的“敏捷化、集中化、智能化”的IT运营监控平台,助力运维团队实现敏捷化、运维研发化(OpsDev)、运营数字化、运维智慧化。

同时,基于平台赋能,各专业、各域运维团队可以以更低成本、更高效率打造运维能力,携手共建运维应用场景和运维生态,推动人运维系统到人控制工具运维系统转型。

总体建设目标


02“能力+应用”构建松耦合IT运营监控支撑体系

该运营商按照“能力+应用”的思路,打破烟囱式建设模式,构建一个可快速迭代的松耦合的IT运营监控支撑体系,实现运维数据共享、能力开发、敏捷迭代、智能运维、快速支撑。

同时基于平台能力,可快速构建专业应用及场景,满足各专业、各团队运维运营需求。


03“提智聚能”锋芒展露,团队SRE转型初见成果

运维边界扩大、人员却没有增加的情况下,如何赋能运维人员,提升运维价值?基于平台进行SRE转型,是该运营商交出的答卷。

PaaS化的技术体系,完善的前后端开发框架、调度引擎、公共组件等模块,让该运营商能够基于平台进行岗位创新,打造SRE团队,沉淀和扩展运维能力,共建运维价值生态。

例如该运营商自主研发的应急管理平台,对各业务的应急能力进行了封装,OnCall人员可以通过平台看到当前服务的状态,并且快速对服务进行上下线、应急通道切换等操作,整个过程可视、可管、可控,解决了OnCall人员切换应急效率低、易出错等问题。

目前应急管理平台已经稳定运营一年以上,故障的平均恢复时长从小时级别减少至分钟级别,应急预案覆盖率从0%提升至42%,故障处理率从0%提升至40%,同时实现了故障数量和处理时长的双压降!

在集团“提智聚能”活动中,应急管理平台等多款SaaS获评运维能力标杆,并进行全国巡展、赋能智慧中台;AIOps自动驾驶应急保障L4探索项目也成功入选集团创新试点,这标志着该运营商业务支撑创新能力进入全国前列!


04. 打通关键环节,实现运维的数字化转型

除了团队生态化能力提升,数据消费、敏捷联动、感知分析、自动执行等能力的落地,也是实现智能化运维支撑的重要前提。

通过本次IT运营监控支撑体系的构建,该运营商打通运维关键环节,落地了可供消费的统一CMDB资产管理、整合运维信息与资源的ITSM敏捷引擎、数据全面的业务可观测管理、能力齐全编排灵活的自动化执行体系,实现了运维的数字化转型,为AIOps探索转型打下夯实基础。

1)可供消费的统一CMDB资产管理

处于运维工作核心的CMDB是自动化、智能化运维的基石。该运营商构建了消费型统一CMDB资产管理,实现100%业务配置接入、自动数据采集和数据消费。

  • 接入业务:
    已接入业务数80+个,主机数6000+台,创建通用模型100+个,配置项实例近80000,已完成100%。
  • 数据采集:
    发现插件数20+个,发现任务数近20个,采集插件数近20个,采集任务数10+个,3月份执行任务数100+个。
  • 数据消费:
    对外开放API 100+个,提供给10+运维工具进行数据消费。


2)整合运维信息与资源的ITSM敏捷引擎

通过统一的自服务门户、流程引擎、知识库、自动化调度,全面整合信息流、管理流和执行流,成功构建敏捷的ITSM流程管理。

① 流程建设:已建敏捷流程近20个,包括SLA、日常运维、演练管理、巡检管理等;

② 工单运转:总工单数为1000+,其中SLA流程近300个,日常运维操作流程200+个,演练管理流程200+个,巡检管理流程100+个

③ 能力对接:对外开放API 10+个,对接运维工具10+(包含自动化能力、智能化能力)。


3)数据全面的业务可观测性管理

通过全景集中监控,该运营商可观测性能力覆盖CRM前端系统、CRM后端系统、BOSS系统等,全面整合数据,实现业务可观测性管理。

① 监控成效:Metric:已接入监控的资源总数有近40000个,共20+个资源类型,采集插件40+个,监控策略配置模板10+条;Trace:部署Web端监控、App端监控、服务端监控等10+个数字化运营场景。

② 告警成效:告警总数157760,处理告警数157732,近一月的历史告警数33901;落地告警收敛策略、告警转工单策略及告警自愈策略。


4)能力齐全,编排灵活的自动化执行体系

基于强大的流程编排引擎、自动化引擎、丰富的API接口,该运营商构建了统一服务管理平台,实现巡检自动化、应用启停、应急切换等自动化执行体系。

① 基础自动化:巡检脚本数近90个,巡检模板数70+,近10类巡检对象,任务总数70+个
已构建10+个应用系统的应用启停任务;灾切自动化,对接50+个应用,共有灾备切换任务20+条

② 应急预案体系:应急预案覆盖近10类场景,包括BOSS、云平台、CRM、BOMC、BASS、动环、安全、其中自动化预案10+。


05. 结语

运维团队有能力,运维环节有数据,该运营商已经初步实现“运维”向“运营”转型。未来,该运营商可以在此基础上进行工作度量,实现PDCA循环演进;还可以基于数据和算法实现AI in ALL,将AI嵌入运维场景,实现运维效能的进一步优化,更加有效支撑业务高质量发展!

免费申请演示

联系我们

服务热线:

020-38847288

QQ咨询:

3593213400

在线沟通:

立即咨询
查看更多联系方式

申请演示

请登录后在查看!