首页

/

【腾讯蓝鲸社区活动】嘉为蓝鲸李超详解从“工具孤岛”到“智能一体”的ITSM韧性演进之路

发布日期:2025-12-09 10:19:39

分享到

了解产品详情请戳-->嘉为蓝鲸ITSM平台

在过去数年间,我们团队赋能上百家企业完成ITSM建设。在此过程中,我们发现企业在落地运维流程时,常常陷入“发现问题-解决问题-再发现新问题-再解决问题”的痛苦循环。今天,我秉持开放探讨的姿态与大家回顾并分享我们在实践中遇到的挑战与沉淀的经验。我将围绕“工具孤岛时代的ITSM建设困境”“一体化运维平台下的ITSM协同闭环”AI加持的智能一体运维流程”三个方面展开,探讨运维流程的新范式,与大家共同思考ITSM运维流程的未来发展路径。


以下内容整理自嘉为蓝鲸 ITSM 业务线产品总监李超于「腾讯蓝鲸社区活动」稳定筑基·轻量演进 迈向韧性、敏捷的下一代运维的精彩分享——《从“工具孤岛”到“智能一体”:ITSM的韧性演进之路》



01. 工具孤岛时代的ITSM建设困境

在企业数字化转型的浪潮中,各个企业运维流程建设的起点各有不同。随着业务发展,大家会逐渐引入各种运维工具,如CMDB、监控告警、自动化工具等,这些工具的来源多种多样,如自主研发、外购部署等。最终形成了各企业特有的 “工具集合”,多为零散的组合而非形成工具体系。这时候,“实现统一运维流程” 就成了核心需求。在整合过程中,普遍会选择ITSM串联这些孤立工具,其中有两个核心驱动因素:


  • 标准化:统一各项运维数据的格式、接口和操作规范,确保不同工具之间能够无缝协同。
  • 自动化: 实现流程的自动化流转和任务的自动执行,减少人工干预,提升效率和准确性。



但在实际应用中,流程远没有想象中顺畅。以最常见的故障事件处置流程为例,从监控告警发现异常开始,告警需要人工或半人工的方式录入ITSM,并查询CMDB找到负责人,负责人处理后再调用自动化工具执行修复。


图片

图1 故障事件处置流程


这个流程看似顺畅,实际上隐藏着两大痛点:


  • 数据一致性难题:各个系统的数据模型不同,告警系统认的是IP地址;CMDB认的是CI编号,ITSM需要在其中维护一套复杂的映射关系,一旦映射出错就会导致流程中断。
  • 极高的开发和维护成本:每接入一个新系统,都需要在ITSM侧做大量定制开发,任何一个被集成系统的API变动,都可能导致整个流程失效。



正是这些问题的长期存在,导致ITSM逐渐陷入“三高”困境:


  • 建设成本高:ITSM需要集成不同工具,由于数据结构复杂且不统一,对接标准多样,且涉及大量定制开发的内容,极大地增加了技术难度。
  • 使用成本高:复杂的集成往往带来割裂的用户体验,用户的接受度降低,系统实际使用效果不好,且需要付出额外的培训成本和推广成本。
  • 维护成本高:由于流程涉及大量定制,这使得后续的维护工作变得困难,每次改动极易出现问题无法及时响应业务变化,逐渐僵化。



尽管ITSM系统的建设初衷是将所有运维工具串联起来,构建理想化的运维流程,但在实际操作中,这些“坑点”却层出不穷。这让我们意识到:ITSM不应该是“粘合”孤立工具的“胶水”,而应该是“管理服务与流程”的核心平台



02. 一体化运维平台下的ITSM协同闭环


根据我们过往的建设经验,我认为关键的“三高”困境的解决思路是:让ITSM回归其管理服务与流程的本质,而不是成为一个庞大而脆弱的集成工具。


运维流程的构建过程,应该是一个一体化过程,而不是碎片的拼接。在这个过程中,需要实现三个关键转变:


  • 从“集成”到“内聚”:构建一个内聚的能力平台,将关键的运维能力(如 CMDB、自动化、可观测等)作为平台原生服务,而非外部集成组件。
  • 从“定制开发”到“标准配置”:基于内聚平台提供的标准化服务,绝大部分流程无需复杂开发,可通过配置化方式快速搭建,从根本上杜绝“为链接而开发”。
  • 从“复杂流程”到“统一体验”:用户和运维人员面对的不再是拼接而成的复杂界面,而是一个统一、简洁的运维门户或者信息高度整合的表单。



基于这一思路,我们明确了四大运维建设目标:保障业务稳定性、提升用户满意度、确保运维活动高效运转、实现可感知的价值呈现并据此推出一体化平台解决方案,旨在构造更高效、更可靠的运维体系。


图片

图2 解决思路设计蓝图


基于一体化运维平台,我们提出“三高”困境的一体化解决方案:


  • 基于平台标准化,ITSM能够内置最佳实践运维流程,打通CMDB、可观测性及自动化等工具,只对结果负责;平台构建统一的数据基座和网关,向各工具提供唯一可信数据源,包括配置和可观测链路数据,ITSM可使用该能力,快速构建个性化的业务场景。
  • 保持流程复杂度与业务复杂度正相关,符合用户对业务流程的感知,提高用户对新流程的接受度;提供统一门户,面向不同角色提供不同能力和视图,提升体验与运维效率。
  • 建设成本的降低能够有效带动维护成本的降低;流程的变更和维护通过配置方式完成,实现灵活、低风险的维护。



同时,从运维全生命周期视角来看,日常维护、变更发布等运维场景需跨领域协同,这驱动了各个业务域之间的业务集成和技术集成设计,让运维流程从强耦合工作流升级为一体化流程。在一体化运维的框架下,我们可以系统性地构建一体化运维流程,重新设计事件的完整流转过程,确保对事件从发现到解决、再到持续优化的全过程实现更强的把控。通过这一端到端的事件生命周期管理,我们不仅提升了对各类事件的响应效率和质量,更重要的是,为自动化工具的广泛应用奠定了坚实的基础,从而持续实现效率跃升。


图片

图3 一体化运维下的事件全生命周期设计


在这种新架构下,ITSM的角色发生了根本性变化:从刚性的管控者,转变为柔性的赋能者。一方面以效率优先,在守住标准化的基础上,扮演 “流程自动化引擎” 和 “信息聚合器”,驱动任务在工具间流转,自动触发操作,汇总关键信息,解放运维人员;另一方面持续改进,建立可度量的闭环反馈机制,通过可视化看板呈现瓶颈,赋能团队定期优化流程和协作模式。


要支撑这种转变,ITSM需要三大关键能力:一是自动化决策引擎,通过DMN决策表解决BPMN流程中复杂决策的可读性和维护性问题;二是极致的可拓展性,采用平台化设计,涵盖场景插件、应用级插件和组件级插件,支持一键安装和灵活定制;三是强大的集成能力,通过集成中心实现API对接、脚本能力和数据源直连,适配各类内部外部系统。



03. AI加持的智能一体运维流程

在一体化运维的基础上,我们通过数据融合、流程自动化和规则驱动,已经实现了效率的显著提升,但这还不是终点。


当前流程模式存在 “能力天花板”—— 能通过固化规则解决确定性、重复性问题,但面对架构变更、新故障等非确定性问题,静态规则反应滞后甚至失效。核心矛盾就是静态规则与复杂业务的不匹配,这也是AI要解决的核心问题。


AI的加入让运维流程发生了多维度革新,主要体现在三个方面:


  • 内容创作智能化:传统根因分析报告依赖人工消化多系统信息,质量参差不齐;AI能自动获取事件和问题单,整合过往类似工单生成专业报告。变更总结也不再流于形式,AI可结合工单记录和系统稳定性指标进行关联分析,为后续决策提供数据基础。
  • 预测与分析精准化:变更风险评估不再依赖人工经验,AI通过多维特征分析——包括实施者历史成功率、变更类型、涉及系统、代码复杂度等,给出量化评估和依据。智能分派也更高效,AI综合分析团队负载、人员在岗状态、历史处理情况,给出客观的分派结果,解决了传统复杂配置的痛点。
  • 全流程智能化赋能:我们构建了一体化运维流程的智能矩阵,从LLM场景应用SaaS层、LLMOps平台层,到一体化运维平台与大模型层,形成完整的智能体系。在事件全生命周期的每个环节,AI都能发挥作用:事前实现监控插件智能编写和策略自动配置;事中进行智能提单派单、推理式根因分析;事后自动生成复盘报告和优化建议。



图片

图4 智能化的时间全生命周期设计


需要强调的是,AI不是空中楼阁,必须建立在一体化流程的基础上。我们不能盲目在任一环节接入AI,而是要找准运维痛点,只有这样,才能确保AI真正赋能SRE,让AI真正带来效能提升,促进运维体系的智能化演进。



04. 总结与展望:运维流程新范式

当前,基于一体化智能平台的事件全生命周期设计,AI还主要扮演 “辅助驾驶” 的角色,不参与具体决策执行。虽然效率大幅提升,但复杂流程编排、大量人工介入、业务变化带来的流程调整等静态问题依然存在。


未来,当AI真正参与运维业务决策时,将带来颠覆性的范式改变:


  • ITSM不再限定具体流程,而是演变为 “目标+任务拆解” 的形式;
  • ITSM仍承载规范化功能,任务定义、追溯、复盘的管控不能少;
  • 运维工具既要面向人或系统,也要为AI提供调用能力。



在AI决策范式转变的背景下,我们要清晰地认识到,回到运维价值流的本源,业务稳定性保障始终是我们的第一要务。因此,在将AI融入运维决策的过程中,构建一个稳固的安全网设计至关重要。为此,我们提出了智能一体化运维流程演进的三个核心原则:


  • 运维业务规范化:规范化不等于影响效率,而是为了价值沉淀;
  • 不能完全交给AI决策,也不能陷入反复人工确认,需要人与AI有机结合;
  • 渐进式演进:可以提供AI决策能力,但不能一刀切。



这些构想旨在指导我们在AI时代下,如何安全、高效、稳健地推进运维流程智能化转型,最终实现更高水平的业务稳定性与安全性。


最后,我想总结一下:ITSM 从 “工具孤岛” 到 “智能一体” 的演进之路,本质上是效率和规范的持续平衡之路。这条路没有终点,因为业务在不断变化,技术在持续迭代。


诚然,“智能一体”的构想,在某些视角看来或许带有些许未来主义色彩,但我们作为SRE专业人士,绝不应低估人工智能未来所能释放的强大潜力。正是在AI驱动下“智能一体”的运维流程蓝图烛照下,我们得以更清晰地审视当前运维管理与流程中存在的症结,进而持续改进,精进不休。这正是ITSM的韧性演进之路,一条没有终点,需要我们不断探索与实践的道路。


我们今天探讨的每一个困境、每一种解决方案、每一个未来构想,核心都是为了让ITSM更好地支撑业务稳定运行,为企业创造更大价值。希望今天的分享能给大家带来一些启发,也期待未来能和各位一起,在运维创新的道路上持续探索前行。

免费申请演示

联系我们

服务热线:

020-38847288

QQ咨询:

3593213400

在线沟通:

立即咨询
查看更多联系方式

申请演示

请登录后在查看!