从同一个 bug 被排查两次开始,我们如何把 ITSM 和 LLM 缝在一起,把资深工程师的排查直觉,沉淀成团队共享的 AI 能力。
01 我们的起点:一个让人无奈的复盘

故事从一次工单复盘开始。
那是一个最普通不过的故障:一张工单从一线服务台开始,被转到二线工程师手里,二线翻了一上午日志,定性不清,又升到三线。三线研发拿着工单跳进多个仓库,最终在一段不起眼的索引缺失代码里揪出根因。
修复、上线、关单。整个流程花了大半天,团队里三个人参与。
复盘结束,我们翻历史工单,发现同一个根因,3 个月前另一个工程师已经排查过完整的一遍 —— 记录在他的本地笔记本里,没有进系统、没有进 wiki、没有被任何后续工程师看到。
那一刻我们意识到:问题不是这次排查得慢,而是每一次都得从零开始。
嘉为蓝鲸 WeOps 一体化智能运维平台(订阅制)是一个包含 27 + 子项目、跨多种语言的 Monorepo 服务集群。每一张工单背后都可能牵连多个子系统的调用链。在这种规模下,经验是否能沉淀,比单次排查的快慢重要得多。
02 把问题归因:三件事,一道墙

我们把日常排查里反复遇到的现象,归到三件事上:
三件事,本质归到一点:AI 缺少领域记忆。
既缺通用方法论,也缺历史经验,更缺业务上下文。人员流动、Wiki 老化、AI 工具脱节,汇成同一道墙 —— 这就是我们要拆的墙。
03 第一个决策:不重写工单系统,做「薄集成层」

把 AI 接进工单流程,第一个要回答的问题是:要不要重新造一个工单系统?
我们的答案是不要。
嘉为蓝鲸 IT 服务流程・鲸脉(简称:嘉为蓝鲸 ITSM)本身已经能用,团队也熟,强行把工单系统重写一遍只是制造噪音。我们把新建系统的定位明确写在 README 里 ——
QAQ 是 ITSM 与 LLM 之间的薄集成层。
它不接管工单的创建、流转、SLA 这些 ITSM 已有的能力,只在已有流程上叠加一层 AI 会话工作台。嘉为蓝鲸 ITSM 通过两个集成点和 QAQ 对接:
・bk_token 登录态集成。复用蓝鲸的统一认证,用户从 ITSM 跳转过来无需重新登录,同时带上身份和组织信息。
・ITSM MCP Server。把 ITSM 的工单数据能力封装成 MCP 工具,让 Coding Agent 可以直接查询 / 创建 / 更新工单 AI 不再是 "收到一段文本",而是能主动读写 ITSM 数据。
这两件事一打通,QAQ 就成了一层「贴」上去的 AI 能力,而不是一次伤筋动骨的系统替换。
04 第二个决策:Prompt 全局统一,不按阶段拆分

我们把工单分诊拆成 4 个阶段:
每个阶段有明确的职责边界 —— 一线不做代码级判断,三线必须先评估证据充分性。
第二个要回答的问题是:这 4 个阶段,要不要用 4 套独立的 Prompt?
我们的答案也是不要。
四阶段分诊指令写在同一份 System Prompt 中,Agent 根据当前工单阶段自行决定执行对应 Stage 的流程。配置存在数据库里,Admin 可热更新,不需要重新发版。
为什么这么选?因为多阶段 Prompt 一旦各自维护,很容易出现「L2 和 L3 的指令互相打架」的情况。统一 Prompt+ 阶段标签,让 Agent 自己判断 "我现在在哪一阶段、该做什么",也让我们调指令时不必担心阶段之间的耦合。
05 第三个决策:Memory 完全委托给执行器

QAQ 自己不做 token 计数、不做历史截断、不做摘要压缩 —— 这些全部委托给底层执行器(Claude Code SDK 或 OpenCode Server)处理。
QAQ 只负责两件事:首条消息注入工单上下文 + 后续消息透传。剩下的会话状态管理、上下文长度控制,都交给 SDK 自己解决。
这是薄集成层哲学的延续:能让别人做的事不自己做。
06 第四个决策:分诊结果结构化输出,驱动自动流转

我们要求 Agent 在每一次回复的末尾,输出一段固定结构的TRIAGE_ROUTE JSON—— 表示 "我建议这张工单接下来去哪里"。QAQ 后端自动提取这段 JSON,驱动工单的阶段流转。
L1 → L2 → L3 → L4 → 修复方案。
整条流水线,从一线到缺陷验证,全程自动路由。不再需要工程师拍脑袋决定 "该转下一线吗"。
这件事看似小,但带来的结构变化是巨大的:阶段流转从 "人主导" 变成了 "AI 主导、人监督"。原本卡在人判断里的时间,被释放出来。
07 AI 怎么真正介入:三个层级的真实场景
设计哲学讲完了,真正决定这套系统能不能用的,是 AI 在每个层级具体怎么帮工程师。
一线服务台的痛点很明确:用户提单只贴了报错截图,缺日志、缺版本号,一线没有判断依据,往常只能转出。
Agent 在 L1 阶段做的事是 —— 识别缺失项、给出明确收集指引:
「请提供 nginx error log + 最近 30min 的 app.log + 系统版本号,然后再补充到这条工单里。」
用户补全信息后,Agent 配合一线的 SOP 直接给出答案。很多工单就此在一线闭环,根本不用升二线。
2) L2 二线・环境 vs 代码
二线的痛点是定性。现象模糊,难以判断这是环境配置问题还是代码 bug,往往两边都试一遍。
Agent 在 L2 阶段被要求做出明确的二元判断:
二线拿到的不是 "可能 / 也许",而是带方向的判断。该升的精准升,该自己解决的不绕弯。
三线面对的是复杂调用链的体力活。27 个子项目分布在多个仓库里,根因藏在哪一环不清楚,靠人逐个仓翻代码定位耗时。
Agent 在 L3 阶段通过 MCP 工具自动跨仓追踪: 从工单入口→bk-cmdb 字段定义→MySQL 索引声明→全链路扫描可能的写入路径。
输出的不是 "请你查",而是一条带可能性排序的根因路径。复杂问题的定位时间被显著压缩。以下是一张真实工单的处理截图 ——Agent 正在自动生成 ESB 排查命令,并逐步缩小根因范围:

08 真正的关键:把每次排查的经验,留下来

分诊流水线解决了怎么流转的问题,但没解决 经验丢失的问题。
如果 Agent 每次都从零开始推理,效率提升有限。所以我们做了 Agent Memory—— 一套结构化的排查记忆系统。
它做三件事:
核心原则我们想了很久,最后写成八个字:读全自动,写有门控。
检索和关联不增加工程师负担;入库和规则变更必须人审核 —— 因为错误记忆一旦污染,会影响所有后续推理。这是一个为长期主义做的取舍:我们宁愿沉淀慢一点,也不能让 Agent 学到错的东西。
形成正向飞轮
这一切串起来,就形成了一个我们一直在追的飞轮:
落到一句话 ——排查得越多,下次排查得越少。The more you solve, the less you'll solve.
我们认为这是 AI 工具应该做到的事:不是替代工程师,而是让团队整体的能力曲线被时间往上拉。
09 团队的反思

把 QAQ+Memory 做出来之后,我们对几件事有了更明确的判断。
1) AI 工具的 "上下文",比 "模型本身" 更稀缺。
模型已经很强,决定一个 AI 工具有没有用的,是它能拿到多少业务上下文。蓝鲸 ITSM 集成、MCP 工具、Case Card—— 这些都是为了让 Agent 拥有 "真正的领域记忆",而不只是个聊天框。
2) "薄集成层" 是性价比最高的切入方式。
我们见过太多团队上来就要重写工单系统、要做大平台,最后两年都还在做基础能力。我们的经验是:先把 AI 这一层叠在已有系统上跑通,等价值被验证,再决定要不要做厚。
3) 经验沉淀的 ROI 远大于单次效率提升。
让一次排查快 30% 是好事,但让团队不再重复同一个排查,价值是指数级的。Memory 这条线,是我们后续会持续加大投入的方向
4) 人和 AI 的边界,要写进规则里。
读全自动、写有门控 —— 这八个字不是技术问题,是产品哲学。让人对 AI 留下来的东西负责,是这套系统能长期跑下去的前提。
10 最后
我们最初做这件事的初衷其实很朴素:让一个组织的排查智慧,永不流失。人会离开,AI 不会。资深工程师的排查直觉,不应该跟着某个人的离职信一起消失。它应该被记录、被检索、被复用 —— 成为整个组织的资产,让团队里任何一个工程师,都能站在所有前人的肩膀上排查。这件事我们才刚开始做。
——WeOps 产品研发部
100+案例淬炼:应用投产变更管理最佳实践
2026-02-09
查看详细
嘉为蓝鲸DevOps|业务人员跨界修缺陷?AI 打通DevOps全链路,提效超乎想象!
2026-02-09
查看详细
【运维自动化规划】自动化作业设计:从原子操作到流程编排的工程化实践
2026-01-09
查看详细
嘉为蓝鲸DevOps研发测试一体化:从信息孤岛到双向穿透,构建高效协同新范式
2026-01-09
查看详细
嘉为蓝鲸DevOps缺陷管理协同中枢:破解 “单测多研” 质量困局,打造高效协同新范式
2025-12-26
查看详细
【运维自动化规划】自动化场景设计:从组件级到混合场景的全链路自动化构建
2025-12-26
查看详细
申请演示