
Agentic Ops 实践中一个规律越来越清晰:AI 在运维场景的落地效果,根本上取决于运维数据、流程和知识体系的治理质量。没有扎实的运维治理底座,AI 能力只能停留在 “理想很美好” 阶段。
但这并不意味着「先把治理做好,再来建 AI」。我们观察到一个更有价值的模式:治理与 AI 可以协同演进,相互加速 —— 扎实的治理让 AI 落地更可靠,而 AI 本身也可以成为持续提升治理质量的有力工具。配置数据质量运营 Agent 可以替代人工月度核查,监控运营 Agent 可以持续分析告警规则优化空间,知识库运营 Agent 可以将故障案例沉淀从「依赖主动填写」变为「自动提取确认」……
核心观点:
AI 不是运维治理的替代品,也不需要等待治理「完美」才能引入。治理是 AI 落地的基础,AI 是治理持续改善的加速器。两者协同演进,是 Agentic Ops 落地最优路径。
01 智能体典型场景落地
在进入治理讨论之前,我们先梳理当前 Agentic Ops 最具代表性的落地场景。正是因为有了这些场景的目标,我们才能回溯每个场景对治理底座的具体依赖。
1) 故障诊断智能体:
故障诊断是 Agentic Ops 最核心、也最具挑战性的场景。统一故障入口(告警 / 事件单 / 故障单等多源信号)触发主智能体,经过 Agentic 编排(已知 / 未知双通道)、故障识别(问题理解与分派)、假设推理(多假设并行验证)、结论裁判(证据汇总与输出)四个主流程,协同六类专项分析子智能体并行执行,同时调用排障知识库(历史故障库 / 运维手册库 / 应急预案库)和场景小模型(时序异常检测、知识图谱 RCA、维度下钻、告警降噪聚合)进行诊断分析,最终输出置信度排序的根因结论与可执行处置建议。

关键论断: 没有完整的可观测性拓扑关系和高质量的监控数据,就不可能构建可靠的故障诊断智能体。这条链路上任何一个节点的数据质量不达标,都会导致根因推断偏差,进而让运维人员失去对 Agent 的信任。
2) ITSM 流程数字人智能体:
流程数字人(AI 员工)是面向特定任务场景的智能执行单元,打破传统 AI 场景封闭模式,构建可无限拓展的智能服务体系。核心理念是:不是角色,是任务执行人 ——AI 员工是具体任务的执行者,不再仅限于问答。整体架构由调度中心(意图识别 / LLM 分析 / AI 员工调度)、AI 员工本体(职责 / 目标 / 行动计划 / 工具集)、知识中心(按职责限定知识范围)、员工中心(界面化零代码配置与全生命周期管理)、工具中心(通用工具注册与内置 MCP 服务)五个模块构成;触发方式支持用户对话、例行任务(周期性)、流程引擎(AI 节点驱动)多路并行。

关键论断: 流程数字人的能力天花板由 SOP 覆盖范围和 ITSM 流程数字化程度决定。未文档化的操作只能转交人工,未数字化的流程无法被 Agent 驱动。知识治理和流程治理的深度,决定了流程数字人规模化的边界。
3) 自动化巡检智能体:
运维团队每日需手动查看监控和告警、执行脚本获取服务器 / 中间件 / 数据库 / 网络设备运行状态、手动点击页面检查业务健康度,耗时费力且依赖个人经验,覆盖不全面。
巡检智能体实现全链路分层自动巡检(服务器 / 网络设备→中间件 / 数据库→应用进程→系统页面),经过多维分析流程,包含异常深度分析、时序对比分析、拓扑分层分析,生成标准化结构化智能化报告,并针对巡检异常自动转工单 / 告警。

关键论断:巡检智能体的价值在于「用一致的标准持续扫描全栈 IT 对象」,而非「偶尔深度分析」。巡检覆盖率和 CMDB 对象完整性是巡检智能体能否做到「无死角」的硬性前提。
4) 智能问答与查询智能体:
运维人员在日常工作中频繁面临两类需求:一是知识检索(如查询故障处置方法、操作规范),依赖关键词匹配检索和个人经验总结,效率低、门槛高;二是数据查询(如统计指定版本的 CMDB 模型实例数量、查询资产关联关系),依赖对 CMDB 接口参数的熟悉程度,有一定学习成本。智能问答与查询智能体通过自然语言交互,将这两类需求统一承接,实现知识问答与数据查询的双轨覆盖。

关键论断:知识问答的「幻觉」风险本质上是知识治理问题:知识库不完整导致 Agent 依赖模型参数知识进行猜测;知识过期导致 Agent 给出已失效的操作建议。解决幻觉的核心手段是提升知识库的覆盖率、结构化程度和时效性。
5) 场景与治理依赖速览:
可以看看这几个典型场景的 Agent 落地和基础设施的关系:

而更多智能体建设则需要更为完善的基础设施:

02 智能体需要什么样的一体化运维基建
一体化运维平台是 Agentic Ops 的「上下文和触手」:AI 的感知能力来自可观测数据,行动能力来自自动化工具,认知能力来自 CMDB 和知识库。没有丰富、准确、标准化的一体化运维基建,Agent 只是一个无法落地的逻辑框架。
1) 嘉为蓝鲸 Agentic Ops 四层架构:从基建到生态:
Agentic Ops 的整体架构由四个层次构成,自底向上层层依赖:


这四层并非独立模块,而是严格的依赖关系:智能体生态(第四层)的可靠性由开发平台(第三层)的完善度、大模型(第二层)的能力边界、以及一体化基建(第一层)的治理质量共同决定。基建层的任何数据质量问题,都会沿依赖链向上传导,最终体现为智能体的误判或失效。
2) MCP:标准化接入,让 Agent 驱动一体化运维
MCP(模型上下文协议)是智能体调用运维操作能力的标准化接口层。通过复用 API 网关,将原有一体化运维平台 API 快速转化为 LLM 可调用的 MCP 接口,实现智能体对运维系统的标准化、安全化调用。

・统一规范:统一 MCP Server 的发布规范,集中管控,支持各开源 / 私有大模型的集成对接。
・安全认证:与权限体系融合,解决 MCP 协议本身无安全与认证的问题;集中管控、会话保持、日志审计、MCP 路由。
・能力复用:与 API Gateway 集成,复用权限、限流、熔断等能力,API 网关支持一键发布至 MCP 市场。
当前已覆盖的 MCP 能力:配置平台 MCP(CMDB 读写)、可观测中心 MCP(指标 / 日志 / Trace 查询)、自动化运维中心 MCP(作业执行)、IT 服务管理 MCP(工单操作)、应用发布中心 MCP(发布触发)等核心模块。
3) Skills:封装运维最佳实践,沉淀可复用原子能力:
Skills 是将反复使用的原子操作封装为标准化技能单元,供多个 Agent 复用,是运维最佳实践的代码化体现。平台提供 Skill 托管和分享功能,支持开源 Skill 包兼容,提供开发工具包支持快速生成和调试。

典型 Skills 类型:
・数据处理类:告警聚合 Skill、日志聚类 Skill、指标异常识别 Skill、数据脱敏 Skill
・推理分析类:根因分析 Skill(RCA 排序)、影响面评估 Skill、RunBook 匹配 Skill、风险评分 Skill
・操作执行类:标准重启 Skill、配置下发 Skill、流量切换 Skill、回滚执行 Skill
・输出生成类:报告生成 Skill、通知推送 Skill、图表渲染 Skill
4) Agent 的构成要素:从能力组件到可信执行:
除 MCP 和 Skills 外,一个生产可用的 Agent 还依赖以下关键要素共同构成:


5) 知识层:让 Agent 成为业务专家:
知识层解决 Agent 的「长期记忆」问题,分三个层次管理:


03 运维治理:AI 落地的关键
Agentic Ops 的落地效果,根本上取决于各运维治理领域的成熟度。每个领域围绕「最佳实践建设维度 + 核心建设内容 + 持续运营机制」三个维度展开。
1) CMDB 配置治理:
CMDB 是 Agent 的「认知地图」,服务依赖关系、资产归属、环境配置都在这里。CMDB 不准确,意味着 Agent 对整个 IT 环境的认知是失真的。

治理关键点:CMDB 的准确性不是一次建设可以解决的问题,而是持续运营的结果。范围聚焦原则:优先治理核心业务系统(30% 的系统覆盖 80% 的价值),逐步扩展。变更驱动是保持准确性的核心机制,定期核查是兜底手段。
2) 可观测性治理:
可观测性是故障诊断 Agent 的「感知神经系统」。指标、日志、Trace 三支柱缺一不可,拓扑关联是多维数据发挥价值的关键。

治理关键点:告警降噪是可观测性治理最直接的价值产出:大量噪音告警会让故障诊断 Agent 的信号识别能力大幅下降。建议将「告警有效率」作为可观测性治理的核心 KPI,持续追踪改善。
3) ITSM 流程治理:
ITSM 流程是流程数字人的「行为规则集」。流程的数字化程度决定了 Agent 能够自主执行的范围边界;未数字化的流程,即使逻辑设计合理,Agent 也无法驱动执行。

4) 知识治理:
知识是 Agent 推理的「经验记忆」。知识的结构化程度和时效性,直接决定了知识问答 Agent 的准确性和故障诊断 Agent 的历史参照能力。

5) 自动化能力治理:
自动化是 Agent 的「手脚」。Agent 的自主执行能力完全依赖自动化工具层的覆盖范围和可靠性;自动化能力薄弱,Agent 只能「出谋划策」而无法「亲自执行」。

6) 发布投产治理:
发布变更是运维风险最集中的场景,也是变更执行 Agent 落地的核心依托。发布流程的规范化程度,直接决定了 AI 能否安全介入发布决策。

7) 灾备应急治理:
灾备应急治理决定了 Agent 在故障高压场景下是否敢用、能用。核心不是准备几份预案,而是把应急 / 灾备预案演练、故障分级、应急指挥协同、故障排查分析、故障复盘沉淀做成可检索、可执行、可度量的闭环。

8) 资源与容量治理:
资源容量治理是容量规划 Agent 和 FinOpsAgent 的数据基础。资源数据的准确性和口径一致性,直接决定了预测模型的置信度和成本优化决策的可靠性。

治理领域全览(不限于)
・CMDB 配置治理→统一建模・自动采集・流程驱动・数据消费・数据运营
・可观测性治理→统一对象建模・指标体系・告警治理・观测数据关联・覆盖管理
・ITSM 流程治理→流程数字化・工单分类・变更规范・SLA 治理
・知识治理→分类建模・故障沉淀・SOP 可执行化・时效管理・显性化
・自动化能力治理→场景覆盖・操作标准化・权限最小化・回滚能力
・发布投产治理→统一标准・策略规范化・风险量化・质量复盘
・灾备应急治理→预案数字化・可执行化・演练常态化・RTO/RPO 量化
・资源与容量治理→映射完整・口径统一・基线动态・成本整合
04 治理路径与实践方法
运维治理不是一次性的技术改造,而是以业务价值为导向、以数据驱动为核心、以支撑 AI 效果落地的系统性变革工程。
1) 第一阶段:基础夯实:
核心定位:解决 "数据孤岛、标准缺失、操作混乱" 的基础问题,为 AI 建立可信的数据输入和可靠的执行通道,实现从 "人工被动救火" 到 "标准化主动运维" 的转变。
本阶段是整个治理体系的基石,其质量直接决定了后续 AI 能力的上限。没有准确、完整、实时的数据,任何 AI 算法都只能产生不可信的结果。建立统一的数据底座和操作规范,使 AI 具备基本的感知和执行能力。

第一阶段可解锁的 AI 能力:告警降噪与智能归并、日志异常分析、知识问答(基础)、CMDB 辅助查询、巡检报告自动生成。
2) 第二阶段:深化融合:
目标:打通各领域数据壁垒,实现 "指标 - 日志 - 链路 - 事件 - 配置" 五维数据融合,构建全局运维视图,使 AI 具备推理和辅助决策能力,实现从 "标准化运维" 到 "智能化运维" 的转变,解锁 Lv.2→Lv.3(人机协同)的 AI 能力。

第二阶段可解锁的 AI 能力:故障诊断 Agent(辅助模式)、ITSM 流程数字人(标准场景)、SQL 风险排查 Agent、CMDB 智能查询、发布风险评估 Agent。
3) 第三阶段:智能运营:
目标:实现全链路智能自治,构建 "感知 - 决策 - 执行 - 优化" 的闭环运维体系,使 AI 具备自主决策和执行能力,实现全链路智能自治,向「无人值守运维闭环」演进。

第三阶段可解锁的 AI 能力:故障诊断 Agent(自主模式)、变更执行 Agent、容量规划 Agent、自愈 Agent、多 Agent 协同。
4) 度量体系:让治理投入可见:
运维治理最容易陷入 "投入可见,产出不可见" 的困境。建立科学、全面的度量体系,是证明治理价值、争取持续资源投入、推动治理工作不断深化的关键。我们建议分阶段建立以下四类度量指标。

度量关键原则:
每个 Agent 上线前,必须建立价值基线(Before 数据);上线后,定期回顾数据对比。没有 Before,就没有 After,场景就永远是 Demo。治理指标的持续改善,是 AI 能力持续提升的前提。
5) AI 技术就绪度:MCP 与工具生态治理:
运维治理的成熟度决定了 AI 能力的数据上限,而 AI 技术本身的就绪度决定了这些数据能否被 Agent 有效利用。在实践中,我们发现一类容易被忽视的瓶颈:运维数据已经足够好,但 Agent 调用工具时频繁出错 —— 根本原因不在数据,而在 MCP 工具本身的质量。从 API 到可靠 MCP 工具,这条路径同样需要系统性治理。

工程实践教训:
我们在某客户的实践中发现:CMDB 数据准确率已达 85%,但 CMDB 查询 MCP 的 description 中对「服务」和「应用」两个概念的描述混用,导致 Agent 在查询服务依赖关系时约 30% 的概率调用了错误的查询接口。修复 description 后,调用准确率从 70% 提升至 95%。
这说明 MCP 工具的质量问题有时比数据质量问题更隐蔽,却同样致命。建议将 MCP 工具质量(description 完整性、测试覆盖率、调用成功率)纳入 AI 技术就绪度的常规评估指标。
05 AI 加速运维治理:飞轮的另一面
至此,我们已经充分讨论了「治理如何支撑 AI 落地」。但飞轮的转动是双向的 ——AI 同样可以反过来加速运维治理本身。治理工作长期面临一个核心困境:数据核查靠人工、问题发现靠巡查、执行监督靠规范。这些工作耗时、低效,且难以持续坚持。
AI 治理智能体的价值在于:将原本依赖人工周期性执行的治理动作,转变为持续自动运行的治理闭环。治理的持续运营质量提升,反过来进一步扩大 AI 落地的空间,形成加速飞轮。
飞轮逻辑:治理夯实数据基础→AI 落地效果提升→AI 辅助治理运营→治理质量持续改善→AI 可覆盖更多场景→……
关键转折点:当 AI 开始辅助治理本身,治理不再是纯粹的「人工负担」,而成为一个可持续自运转的质量保障体系。
1) 配置数据质量运营智能体:
CMDB 是 Agent 的「认知地图」,服务依赖关系、资产归属、环境配置都在这里。CMDB 不准确,意味着 Agent 对整个 IT 环境的认知是失真的。
CMDB 数据准确率的持续维护是运维治理中最耗时的工作之一:人工核查覆盖面有限、问题发现滞后、责任人推送依赖手工统计。配置数据质量运营 Agent 将这个过程自动化。
将 CMDB 数据准确率的维护从「月度人工核查」转变为「持续自动监控 + 精准推送」,异常发现时效从月级压缩至天级,人工核查工作量降低 60%+。
2) 监控运营智能体:
告警有效率的持续提升是可观测性治理最难坚持的部分:噪音告警的识别需要分析大量历史数据,告警规则的优化建议难以系统性产出,监控覆盖盲区的发现依赖人工经验。
3) 知识库运营智能体:
知识库的持续更新是知识治理最难坚持的环节:故障案例沉淀依赖工程师主动填写(实际执行率普遍偏低),知识时效性检查依赖人工定期审核,SOP 可执行性评估缺乏系统化方法。
故障案例沉淀率从通常不足 30% 提升至 70%+,知识库的覆盖率和时效性持续改善,直接提升故障诊断 Agent 和知识问答 Agent 的推理质量。
4) ITSM 流程质量运营智能体:
ITSM 流程的数字化建设完成后,流程质量的持续运营同样需要系统化支撑:意图识别及调度的准确率监控、SLA 达标趋势的分析、高频问题的识别与推进 —— 这些工作如果依赖人工统计,往往滞后且片面。
5) 自动化覆盖运营智能体:
自动化覆盖率的提升需要持续识别:哪些业务系统还没有使用自动化,哪些 IT 对象还不支持自动化,哪些操作还没有自动化,但这个识别过程本身耗时且依赖经验。
自动化覆盖运营 Agent 通过结合 CMDB 业务系统和 IT 资源对象、ITSM 变更工单、主机操作日志等多维度数据,自动统计业务 / IT 对象 / 标准操作等多维度的自动化覆盖率,自动识别高价值的自动化空白场景。
6) AI 辅助治理的整体价值:
将上述治理智能体汇总来看,其核心价值在于将「周期性人工治理」转变为「持续自动治理」:

这些治理智能体本身也是 Agentic Ops 智能体生态的一部分,只不过它们的「用户」是运维治理负责人和平台团队,而非一线运维工程师。飞轮的双向转动,正是体现在这里:AI 落地场景和 AI 治理工具共享同一套基建和平台,相互促进,协同演进。
06 客户案例实践
1) 案例:某大型组织 —— 从 0 到 30 + 运维数字员工:
该组织运维场景复杂,覆盖测试环境管控、生产环境可靠性保障等运维全链路场景。在启动 Agentic Ops 建设之前,已完成一体化运维平台基础建设,具备相对完整的治理底座:CMDB 准确率和监控覆盖率维持在较高水平,核心运维流程已数字化。

目前已生成 30 + 每天工作量超过 8 小时的运维数字员工,调度 500 + 智能体,各类典型场景持续迭代优化中。
结语
没有银弹,但有飞轮。
AI 大模型本身的进步会持续压低算法层的壁垒 —— 通用推理能力会趋向商品化。但运维数据资产和 MCP 工具生态是难以快速复制的积累,将成为 Agentic Ops 时代的核心竞争壁垒。能够最先建立起运维数据、MCP 工具生态、Agent 能力库这三类资产的组织,将在 Agentic Ops 时代获得持续领先优势。
Agentic Ops 的演进,不依赖某个单一技术的突破,而依赖治理与 AI 能力的持续相互强化。治理夯实 AI 落地的数据基础,AI 反过来加速治理的持续运营 —— 每一次循环都让飞轮转得更快,让 AI 覆盖更多场景,让治理质量再上一个台阶。
100+案例淬炼:应用投产变更管理最佳实践
2026-02-09
查看详细
嘉为蓝鲸DevOps|业务人员跨界修缺陷?AI 打通DevOps全链路,提效超乎想象!
2026-02-09
查看详细
【运维自动化规划】自动化作业设计:从原子操作到流程编排的工程化实践
2026-01-09
查看详细
嘉为蓝鲸DevOps研发测试一体化:从信息孤岛到双向穿透,构建高效协同新范式
2026-01-09
查看详细
嘉为蓝鲸DevOps缺陷管理协同中枢:破解 “单测多研” 质量困局,打造高效协同新范式
2025-12-26
查看详细
【运维自动化规划】自动化场景设计:从组件级到混合场景的全链路自动化构建
2025-12-26
查看详细
申请演示