随着云原生技术的普及,Kubernetes(k8s)已成为企业容器编排的核心引擎。然而,其多层次架构与动态特性使得故障定位与资源调度效率低下,传统人工运维模式难以应对高速迭代需求。
中山大学计算机系陈鹏飞教授科研团队(陈鹏飞 | 中山大学计算机学院)与嘉为蓝鲸OpsPilot智能运维平台强强联合,基于中大在分布式系统、智能运维等领域的学术积累,深度集成大模型和K8s工具链,以联合研发的对话式智能体重构集群管理流程 ,推动运维模式从“人工救火”迈向“AI自愈”。
01.传统运维:深夜救火效率低下,人工排障错误频发
运维工程师小王深夜接到告警:“线上支付服务响应超时,请求成功率跌至80%”。他立刻打开电脑,却陷入一连串麻烦:
传统k8s运维的核心痛点清晰可见:
02.K8s智能体解决:故障诊断秒级闭环,集群运维对话达成
1)从自然语言理解到闭环执行的智能体架构革命
面对传统运维的痛点,OpsPilot基于LLM大模型与MCP协议工具调度能力,重构了集群管理流程,实现从被动响应到主动治理的跨越式升级。k8s智能体实现以下关键特性:
2)三种使用形态,让k8s故障自愈发挥最大价值
k8s智能体主要有三种使用形态:对话式触发,定时触发,API触发。所有形态均收敛至K8s Virtual SRE,由它协调工具执行和决策。执行过程存在关键分叉路径 ——通知路径(企业微信/钉钉)支持人工介入场景,而操作路径(API直连Kubernetes)驱动自动化修复,最终形成从触发入口到反馈出口的闭环:事件经由SRE与工具协同处理,直达集群操作,实现对Kubernetes环境的秒级敏捷响应,贯穿"诊断-决策-执行"全链路。
智能体响应流程如下,智能体根据预设规则自动执行以下操作:
通过此功能可快速实现:
(2)示例问题2:诊断处于failed或pending状态的pods
智能体响应流程如下,智能体根据预设规则自动执行以下操作:
通过此功能可快速实现:
(3)示例问题3:查看整个集群的近期events
智能体响应流程如下,智能体根据预设规则自动执行以下操作:
通过此功能可快速实现:
👆点击了解陈教授
中山大学的云原生故障诊断算法 、零侵入追踪专利与智能调度模型注入OpsPilot,k8s运维正式迈入“技术自治”时代——学术精研与工程实践的共振,正让“AI自愈运维”从实验室走向产业核心场景。
还在等什么呢?嘉为蓝鲸智能运维OpsPilot体验环境已开放!点击下方链接,即可免费体验环境:https://bklite.canway.net/ops-console/home
加入社区,共创未来:想深入了解实现细节或参与项目共建?欢迎访问我们的 GitHub 开源项目,获取最新代码与技术文档:https://github.com/TencentBlueK
与开发者零距离交流:欢迎大家扫码加入技术交流群,获取实时更新、案例分享与专家答疑~
04.嘉为蓝鲸OpsPilot智能运维支撑平台:更懂运维的AI平台
嘉为蓝鲸智能运维OpsPilot是集知识库管理、技能配置、机器人管理及工具管理于一体的智能运维支撑平台,深度融合LLM大模型的语义理解、知识增强与多模态处理能力,聚焦运维领域,突破单一LLM能力局限,成为更懂运维的智能AI平台。
嘉为蓝鲸OpsPilot V3.7全新升级:重构分块与问答对关联,赋能精准检索与可靠回答
查看详细
嘉为蓝鲸应用发布中心V6.2重磅来袭:国产化、容器化、智能化,三驱赋能云原生发布
查看详细
嘉为蓝鲸CPack制品管理平台:容量管控——告别存储爆满,为存储装上「安全阀」
查看详细
数据安全管控漫画:告别数据越权,精准控制数据权限
查看详细
嘉为蓝鲸自动化运维中心V3.1:新增两大场景、大模型赋能、场景全面优化,构建更安全更高效的自动化运维体系
查看详细
嘉为蓝鲸IT服务管理中心V4.6重磅来袭:深度优化五大核心能力,重塑运维效率
查看详细
申请演示