随着云原生技术的普及,Kubernetes(k8s)已成为企业容器编排的核心引擎。然而,其多层次架构与动态特性使得故障定位与资源调度效率低下,传统人工运维模式难以应对高速迭代需求。
中山大学计算机系陈鹏飞教授科研团队(陈鹏飞 | 中山大学计算机学院)与嘉为蓝鲸OpsPilot智能运维平台强强联合,基于中大在分布式系统、智能运维等领域的学术积累,深度集成大模型和K8s工具链,以联合研发的对话式智能体重构集群管理流程 ,推动运维模式从“人工救火”迈向“AI自愈”。
01.传统运维:深夜救火效率低下,人工排障错误频发
运维工程师小王深夜接到告警:“线上支付服务响应超时,请求成功率跌至80%”。他立刻打开电脑,却陷入一连串麻烦:
传统k8s运维的核心痛点清晰可见:
02.K8s智能体解决:故障诊断秒级闭环,集群运维对话达成
1)从自然语言理解到闭环执行的智能体架构革命
面对传统运维的痛点,OpsPilot基于LLM大模型与MCP协议工具调度能力,重构了集群管理流程,实现从被动响应到主动治理的跨越式升级。k8s智能体实现以下关键特性:
2)三种使用形态,让k8s故障自愈发挥最大价值
k8s智能体主要有三种使用形态:对话式触发,定时触发,API触发。所有形态均收敛至K8s Virtual SRE,由它协调工具执行和决策。执行过程存在关键分叉路径 ——通知路径(企业微信/钉钉)支持人工介入场景,而操作路径(API直连Kubernetes)驱动自动化修复,最终形成从触发入口到反馈出口的闭环:事件经由SRE与工具协同处理,直达集群操作,实现对Kubernetes环境的秒级敏捷响应,贯穿"诊断-决策-执行"全链路。
智能体响应流程如下,智能体根据预设规则自动执行以下操作:
通过此功能可快速实现:
(2)示例问题2:诊断处于failed或pending状态的pods
智能体响应流程如下,智能体根据预设规则自动执行以下操作:
通过此功能可快速实现:
(3)示例问题3:查看整个集群的近期events
智能体响应流程如下,智能体根据预设规则自动执行以下操作:
通过此功能可快速实现:
👆点击了解陈教授
中山大学的云原生故障诊断算法 、零侵入追踪专利与智能调度模型注入OpsPilot,k8s运维正式迈入“技术自治”时代——学术精研与工程实践的共振,正让“AI自愈运维”从实验室走向产业核心场景。
还在等什么呢?嘉为蓝鲸智能运维OpsPilot体验环境已开放!点击下方链接,即可免费体验环境:https://bklite.canway.net/ops-console/home
加入社区,共创未来:想深入了解实现细节或参与项目共建?欢迎访问我们的 GitHub 开源项目,获取最新代码与技术文档:https://github.com/TencentBlueK
与开发者零距离交流:欢迎大家扫码加入技术交流群,获取实时更新、案例分享与专家答疑~
04.嘉为蓝鲸OpsPilot智能运维支撑平台:更懂运维的AI平台
嘉为蓝鲸智能运维OpsPilot是集知识库管理、技能配置、机器人管理及工具管理于一体的智能运维支撑平台,深度融合LLM大模型的语义理解、知识增强与多模态处理能力,聚焦运维领域,突破单一LLM能力局限,成为更懂运维的智能AI平台。
再赴香港!嘉为蓝鲸亮相网络安全技术研讨会,与伙伴共探行业发展新趋势
查看详细
嘉为蓝鲸WeOps上新|WeOpsV5.25&V4.25:日志查询的两道坎都让AI填平了
查看详细
权威认可!嘉为蓝鲸参编信通院行业报告,为央国企数智化转型注入强劲动能!
查看详细
【嘉为蓝鲸×中大】首篇实战:对话触发k8s智能体,高效自愈集群故障
查看详细
智能运维OpsPilot:动态知识图谱上线,让企业知识“活”起来
查看详细
再添荣誉!嘉为蓝鲸斩获可信云技术典型实践大奖,彰显智能运维实力
查看详细
申请演示