MiniMax发布M2.7,强调模型参与自身演进
4/12/2026
MiniMax于2026年3月18日发布M2.7,并将其描述为M2系列中首个“深度参与自身演进”的模型。按照官方说法,M2.7的定位不只是完成任务的通用模型,而是能够在自身后续迭代中发挥作用,参与代理框架、技能体系和记忆机制的构建与优化,从而推动模型与组织一同加快演进。
https://filecdn.minimax.chat/public/platform_web/offical-news/%E9%A3%9E%E4%B9%A6%E4%BA%91%E6%96%87%E6%A1%A3/img-1.png
根据MiniMax发布的内容,M2.7能够搭建复杂的agent harness,并借助Agent Teams、复杂Skills以及动态工具搜索,完成高度复杂的生产力任务。公司称,在M2.7的开发过程中,模型被用于更新自身记忆、构建数十个复杂技能,以支持强化学习实验;同时,它还会根据实验结果继续改进自己的学习流程和代理框架。MiniMax将这一过程视为模型“自我演进循环”的开端。
https://filecdn.minimax.chat/public/platform_web/offical-news/%E9%A3%9E%E4%B9%A6%E4%BA%91%E6%96%87%E6%A1%A3/img-2.png
MiniMax还披露了一套内部工作流,用来说明M2系列模型如何在研究环境中参与自我演进。在这一流程中,内部版本的M2.7被要求构建一个研究型代理框架,以便与不同研究项目组协作。该框架覆盖数据管线、训练环境、基础设施、跨团队协作以及持久化记忆等环节。公司表示,这一研究代理框架能够帮助研究人员推动更高质量模型的迭代,同时保留由研究人员设定的总体指导。
https://filecdn.minimax.chat/public/platform_web/offical-news/%E9%A3%9E%E4%B9%A6%E4%BA%91%E6%96%87%E6%A1%A3/img-3.png
在强化学习团队的日常流程中,MiniMax给出了更具体的示例。研究人员可以先与代理讨论实验设想,随后由代理协助完成文献回顾、跟踪预设实验规范、准备数据与相关产物,并启动实验。实验运行期间,代理还可以持续监控进展,自动触发日志读取、问题排查、指标分析、代码修复、提交合并请求以及执行冒烟测试。MiniMax表示,这一变化使研究人员更多集中在关键决策和讨论上,而M2.7已经能够承担其中30%到50%的工作流程。
https://filecdn.minimax.chat/public/platform_web/offical-news/%E9%A3%9E%E4%B9%A6%E4%BA%91%E6%96%87%E6%A1%A3/video-1.mp4
在这一迭代过程中,MiniMax认为,模型递归式改进自身代理框架的能力同样关键。公司称,其内部框架可以自主收集反馈、为内部任务构建评测集,并持续迭代自身架构、skills或MCP实现方式以及记忆机制,以更高效地完成任务。在一次内部编程脚手架实验中,M2.7连续进行了100多轮自主循环,过程包括分析失败轨迹、规划修改方案、调整脚手架代码、运行评测、比较结果,并决定保留还是回退改动。MiniMax表示,这一过程最终让内部评测集上的表现提升了30%。
https://filecdn.minimax.chat/public/platform_web/offical-news/%E9%A3%9E%E4%B9%A6%E4%BA%91%E6%96%87%E6%A1%A3/video-2.mp4
https://file.cdn.minimax.io/public/d92a6eb4-a4b8-4906-b76a-d627c814a2c0.gif
在软件工程方面,MiniMax将M2.7描述为更贴近真实生产环境的模型,而不仅仅是代码生成工具。官方列举的场景包括日志分析、缺陷排查、重构、代码安全、机器学习以及Android开发等。以线上环境调试为例,MiniMax表示,M2.7可以将监控指标与部署时间线进行关联,完成因果推理;对链路采样做统计分析并提出精确假设;主动连接数据库验证根因;定位代码仓库中缺失的索引迁移文件;并在提交合并请求前先采用非阻塞索引创建方式控制影响。公司称,借助M2.7,其曾多次将线上生产系统事故的恢复时间缩短到3分钟以内。
https://filecdn.minimax.chat/public/d070816d-2c2a-4a5c-a441-48c9dd19d44d.mp4
MiniMax同时公布了多项基准测试结果。按照官方数据,M2.7在SWE-Pro上达到56.22%,在Multi-SWE Bench上为52.7,在VIBE-Pro上为55.6,在Terminal Bench 2上为57.0。办公场景方面,公司表示,模型在Excel、PowerPoint和Word上的复杂编辑能力得到提升,尤其是在多轮修改和高保真编辑任务中表现更强。在GDPval-AA评测中,M2.7的ELO分数达到1495;在Toolathon中取得46.3;在MM Claw测试中,面对40个超过2000 token的复杂技能时,技能遵循率保持在97%。
MiniMax还介绍了低资源机器学习场景下的初步探索。M2.7参加了22项由OpenAI开源的MLE Bench Lite级别竞赛,这些竞赛可在单张A30 GPU上运行。公司为此设计了包含短期记忆、自我反馈和自我优化三部分的简单框架,并进行了三次、每次24小时的迭代演进实验。官方称,最佳一次实验最终获得9枚金牌、5枚银牌和1枚铜牌,三次实验的平均奖牌率达到66.6%。除工作场景外,MiniMax还表示,M2.7在角色一致性和情绪智能方面也有提升,并展示了名为OpenRoom的初步演示系统,用于在Web图形界面中提供更具互动性的代理体验。