在过去数年间,我们团队赋能上百家企业完成ITSM建设。在此过程中,我们发现企业在落地运维流程时,常常陷入“发现问题-解决问题-再发现新问题-再解决问题”的痛苦循环。今天,我秉持开放探讨的姿态与大家回顾并分享我们在实践中遇到的挑战与沉淀的经验。我将围绕“工具孤岛时代的ITSM建设困境”“一体化运维平台下的ITSM协同闭环”“AI加持的智能一体运维流程”三个方面展开,探讨运维流程的新范式,与大家共同思考ITSM运维流程的未来发展路径。
以下内容整理自嘉为蓝鲸 ITSM 业务线产品总监李超于「腾讯蓝鲸社区活动」稳定筑基·轻量演进 迈向韧性、敏捷的下一代运维的精彩分享——《从“工具孤岛”到“智能一体”:ITSM的韧性演进之路》。
01. 工具孤岛时代的ITSM建设困境
在企业数字化转型的浪潮中,各个企业运维流程建设的起点各有不同。随着业务发展,大家会逐渐引入各种运维工具,如CMDB、监控告警、自动化工具等,这些工具的来源多种多样,如自主研发、外购部署等。最终形成了各企业特有的 “工具集合”,多为零散的组合而非形成工具体系。这时候,“实现统一运维流程” 就成了核心需求。在整合过程中,普遍会选择ITSM串联这些孤立工具,其中有两个核心驱动因素:
但在实际应用中,流程远没有想象中顺畅。以最常见的故障事件处置流程为例,从监控告警发现异常开始,告警需要人工或半人工的方式录入ITSM,并查询CMDB找到负责人,负责人处理后再调用自动化工具执行修复。
图1 故障事件处置流程
这个流程看似顺畅,实际上隐藏着两大痛点:
正是这些问题的长期存在,导致ITSM逐渐陷入“三高”困境:
尽管ITSM系统的建设初衷是将所有运维工具串联起来,构建理想化的运维流程,但在实际操作中,这些“坑点”却层出不穷。这让我们意识到:ITSM不应该是“粘合”孤立工具的“胶水”,而应该是“管理服务与流程”的核心平台。
02. 一体化运维平台下的ITSM协同闭环
根据我们过往的建设经验,我认为关键的“三高”困境的解决思路是:让ITSM回归其管理服务与流程的本质,而不是成为一个庞大而脆弱的集成工具。
运维流程的构建过程,应该是一个一体化过程,而不是碎片的拼接。在这个过程中,需要实现三个关键转变:
基于这一思路,我们明确了四大运维建设目标:保障业务稳定性、提升用户满意度、确保运维活动高效运转、实现可感知的价值呈现,并据此推出一体化平台解决方案,旨在构造更高效、更可靠的运维体系。
图2 解决思路设计蓝图
基于一体化运维平台,我们提出“三高”困境的一体化解决方案:
同时,从运维全生命周期视角来看,日常维护、变更发布等运维场景需跨领域协同,这驱动了各个业务域之间的业务集成和技术集成设计,让运维流程从强耦合工作流升级为一体化流程。在一体化运维的框架下,我们可以系统性地构建一体化运维流程,重新设计事件的完整流转过程,确保对事件从发现到解决、再到持续优化的全过程实现更强的把控。通过这一端到端的事件生命周期管理,我们不仅提升了对各类事件的响应效率和质量,更重要的是,为自动化工具的广泛应用奠定了坚实的基础,从而持续实现效率跃升。
图3 一体化运维下的事件全生命周期设计
在这种新架构下,ITSM的角色发生了根本性变化:从刚性的管控者,转变为柔性的赋能者。一方面以效率优先,在守住标准化的基础上,扮演 “流程自动化引擎” 和 “信息聚合器”,驱动任务在工具间流转,自动触发操作,汇总关键信息,解放运维人员;另一方面持续改进,建立可度量的闭环反馈机制,通过可视化看板呈现瓶颈,赋能团队定期优化流程和协作模式。
要支撑这种转变,ITSM需要三大关键能力:一是自动化决策引擎,通过DMN决策表解决BPMN流程中复杂决策的可读性和维护性问题;二是极致的可拓展性,采用平台化设计,涵盖场景插件、应用级插件和组件级插件,支持一键安装和灵活定制;三是强大的集成能力,通过集成中心实现API对接、脚本能力和数据源直连,适配各类内部外部系统。
03. AI加持的智能一体运维流程
在一体化运维的基础上,我们通过数据融合、流程自动化和规则驱动,已经实现了效率的显著提升,但这还不是终点。
当前流程模式存在 “能力天花板”—— 能通过固化规则解决确定性、重复性问题,但面对架构变更、新故障等非确定性问题,静态规则反应滞后甚至失效。核心矛盾就是静态规则与复杂业务的不匹配,这也是AI要解决的核心问题。
AI的加入让运维流程发生了多维度革新,主要体现在三个方面:
图4 智能化的时间全生命周期设计
需要强调的是,AI不是空中楼阁,必须建立在一体化流程的基础上。我们不能盲目在任一环节接入AI,而是要找准运维痛点,只有这样,才能确保AI真正赋能SRE,让AI真正带来效能提升,促进运维体系的智能化演进。
04. 总结与展望:运维流程新范式
当前,基于一体化智能平台的事件全生命周期设计,AI还主要扮演 “辅助驾驶” 的角色,不参与具体决策执行。虽然效率大幅提升,但复杂流程编排、大量人工介入、业务变化带来的流程调整等静态问题依然存在。
未来,当AI真正参与运维业务决策时,将带来颠覆性的范式改变:
在AI决策范式转变的背景下,我们要清晰地认识到,回到运维价值流的本源,业务稳定性保障始终是我们的第一要务。因此,在将AI融入运维决策的过程中,构建一个稳固的安全网设计至关重要。为此,我们提出了智能一体化运维流程演进的三个核心原则:
这些构想旨在指导我们在AI时代下,如何安全、高效、稳健地推进运维流程智能化转型,最终实现更高水平的业务稳定性与安全性。
最后,我想总结一下:ITSM 从 “工具孤岛” 到 “智能一体” 的演进之路,本质上是效率和规范的持续平衡之路。这条路没有终点,因为业务在不断变化,技术在持续迭代。
诚然,“智能一体”的构想,在某些视角看来或许带有些许未来主义色彩,但我们作为SRE专业人士,绝不应低估人工智能未来所能释放的强大潜力。正是在AI驱动下“智能一体”的运维流程蓝图烛照下,我们得以更清晰地审视当前运维管理与流程中存在的症结,进而持续改进,精进不休。这正是ITSM的韧性演进之路,一条没有终点,需要我们不断探索与实践的道路。
我们今天探讨的每一个困境、每一种解决方案、每一个未来构想,核心都是为了让ITSM更好地支撑业务稳定运行,为企业创造更大价值。希望今天的分享能给大家带来一些启发,也期待未来能和各位一起,在运维创新的道路上持续探索前行。
【腾讯蓝鲸社区活动】嘉为蓝鲸吴文豪详解BlueKing Lite:轻盈与智能的运维之旅
2025-12-01
查看详细
嘉为蓝鲸DevOps消息中心:通知精准触达,协作全程不脱节!
2025-12-01
查看详细
嘉为蓝鲸WeOps上新 | WeOps V5.28&V4.28:服务台门户主题上新,提单更快、体验更简!
2025-11-21
查看详细
嘉为蓝鲸DevOps多租户管理:隔离安全可控,定制随需而变,多团队协作互不干扰!
2025-11-21
查看详细
嘉为蓝鲸制品库仓库回收站:保障制度安全,提升管理灵活性
2025-11-14
查看详细
【CMDB系列】CMDB纳管容器详解
2025-11-14
查看详细
申请演示