开源视觉代理智能的新巅峰:Kimi K2.5 发布,首创自适应“智能体集群”技术
1/27/2026
开源人工智能领域迎来了一个重要的里程碑。今天发布的 Kimi K2.5,凭借约 15 万亿(15T)视觉与文本混合 token 的持续预训练,确立了其作为当前最强开源模型的地位。作为一款原生多模态模型,K2.5 不仅具备卓越的编码与视觉能力,更通过一种全新的“视觉代理智能”(Visual Agentic Intelligence)范式,重新定义了 AI 的工作方式。
https://pbs.twimg.com/media/G_pUaPlaoAAa9as?format=jpg&name=large
https://statics.moonshot.cn/blogs/k2-5/20260127-131347.jpeg
从单体到集群:自适应智能体群 (Agent Swarm) Kimi K2.5 的核心突破在于其“智能体集群”能力。面对复杂任务时,K2.5 不再单打独斗,而是能像指挥官一样,自动创建并调度多达 100 个子智能体(Sub-agents)。这些子智能体可以在没有预定义工作流的情况下,并行执行多达 1500 次工具调用。与传统的单智能体模式相比,这种并行处理将执行时间缩短了 4.5 倍。
https://statics.moonshot.cn/blogs/k2-5/token_cost.png
https://statics.moonshot.cn/blogs/k2-5/orchestrator-1.png
https://statics.moonshot.cn/blogs/k2-5/20260126-225846.png
这一能力得益于“并行智能体强化学习”(PARL)技术。PARL 训练了一个编排器(Orchestrator),使其学会将任务分解为并行子任务,并动态实例化专门的子智能体(如物理研究员或事实核查员)。为了避免“串行崩溃”(Serial Collapse),PARL 引入了基于“关键步骤”(Critical Steps)的奖励机制,强制模型在训练初期就探索并行策略,从而最大化效率。
https://statics.moonshot.cn/blogs/k2-5/sota3_compressed.mp4
https://statics.moonshot.cn/blogs/k2-5/Sota2_compressed.mp4
视觉编码与办公生产力 在编码领域,K2.5 被誉为最强的开源模型,尤其擅长前端开发。它具备“视觉编码”(Coding with Vision)能力,能够通过推理图像和视频来生成代码。演示显示,K2.5 可以仅凭视频重建网站,或者通过视觉调试自主迭代,甚至将马蒂斯《舞蹈》的艺术风格转化为应用程序界面。这些功能已集成至 Kimi Code 中,支持 VSCode 等主流 IDE。
https://statics.moonshot.cn/blogs/k2-5/sota5_compressed.mp4
https://statics.moonshot.cn/blogs/k2-5/sota4_compressed.mp4
基准测试与性能 在生产力方面,K2.5 支持处理万字长文和百页文档,能够端到端完成复杂的 Office 任务。在 HLE、SWE-Bench Verified 和 BrowseComp 等权威基准测试中,Kimi K2.5 的表现均优于或媲美 GPT-5.2 (xhigh)、Claude 4.5 Opus 和 Gemini 3 Pro 等模型。特别是在 Agent Swarm 模式下,其在广度搜索场景中的效率提升显著。Kimi K2.5 的发布,标志着开源社区向通用人工智能(AGI)迈出了坚实的一步。
https://statics.moonshot.cn/blogs/k2-5/20260125-173909_2_compressed.mp4
https://statics.moonshot.cn/blog/k2-5/20260127-152311.png
https://statics.moonshot.cn/blogs/k2-5/orchestrator-1.png
https://statics.moonshot.cn/blogs/k2-5/20260126-225846.png