MiniMax发布M2.7，强调模型参与自身演进

Name: MiniMax发布M2.7，强调模型参与自身演进 - Video
Uploaded: 2026-04-12T12:44:40.244Z
Description: MiniMax发布M2.7，强调模型参与自身演进

4/12/2026

MiniMax于2026年3月18日发布M2.7，并将其描述为M2系列中首个“深度参与自身演进”的模型。按照官方说法，M2.7的定位不只是完成任务的通用模型，而是能够在自身后续迭代中发挥作用，参与代理框架、技能体系和记忆机制的构建与优化，从而推动模型与组织一同加快演进。 https://filecdn.minimax.chat/public/platform_web/offical-news/%E9%A3%9E%E4%B9%A6%E4%BA%91%E6%96%87%E6%A1%A3/img-1.png 根据MiniMax发布的内容，M2.7能够搭建复杂的agent harness，并借助Agent Teams、复杂Skills以及动态工具搜索，完成高度复杂的生产力任务。公司称，在M2.7的开发过程中，模型被用于更新自身记忆、构建数十个复杂技能，以支持强化学习实验；同时，它还会根据实验结果继续改进自己的学习流程和代理框架。MiniMax将这一过程视为模型“自我演进循环”的开端。 https://filecdn.minimax.chat/public/platform_web/offical-news/%E9%A3%9E%E4%B9%A6%E4%BA%91%E6%96%87%E6%A1%A3/img-2.png MiniMax还披露了一套内部工作流，用来说明M2系列模型如何在研究环境中参与自我演进。在这一流程中，内部版本的M2.7被要求构建一个研究型代理框架，以便与不同研究项目组协作。该框架覆盖数据管线、训练环境、基础设施、跨团队协作以及持久化记忆等环节。公司表示，这一研究代理框架能够帮助研究人员推动更高质量模型的迭代，同时保留由研究人员设定的总体指导。 https://filecdn.minimax.chat/public/platform_web/offical-news/%E9%A3%9E%E4%B9%A6%E4%BA%91%E6%96%87%E6%A1%A3/img-3.png 在强化学习团队的日常流程中，MiniMax给出了更具体的示例。研究人员可以先与代理讨论实验设想，随后由代理协助完成文献回顾、跟踪预设实验规范、准备数据与相关产物，并启动实验。实验运行期间，代理还可以持续监控进展，自动触发日志读取、问题排查、指标分析、代码修复、提交合并请求以及执行冒烟测试。MiniMax表示，这一变化使研究人员更多集中在关键决策和讨论上，而M2.7已经能够承担其中30%到50%的工作流程。 https://filecdn.minimax.chat/public/platform_web/offical-news/%E9%A3%9E%E4%B9%A6%E4%BA%91%E6%96%87%E6%A1%A3/video-1.mp4 在这一迭代过程中，MiniMax认为，模型递归式改进自身代理框架的能力同样关键。公司称，其内部框架可以自主收集反馈、为内部任务构建评测集，并持续迭代自身架构、skills或MCP实现方式以及记忆机制，以更高效地完成任务。在一次内部编程脚手架实验中，M2.7连续进行了100多轮自主循环，过程包括分析失败轨迹、规划修改方案、调整脚手架代码、运行评测、比较结果，并决定保留还是回退改动。MiniMax表示，这一过程最终让内部评测集上的表现提升了30%。 https://filecdn.minimax.chat/public/platform_web/offical-news/%E9%A3%9E%E4%B9%A6%E4%BA%91%E6%96%87%E6%A1%A3/video-2.mp4 https://file.cdn.minimax.io/public/d92a6eb4-a4b8-4906-b76a-d627c814a2c0.gif 在软件工程方面，MiniMax将M2.7描述为更贴近真实生产环境的模型，而不仅仅是代码生成工具。官方列举的场景包括日志分析、缺陷排查、重构、代码安全、机器学习以及Android开发等。以线上环境调试为例，MiniMax表示，M2.7可以将监控指标与部署时间线进行关联，完成因果推理；对链路采样做统计分析并提出精确假设；主动连接数据库验证根因；定位代码仓库中缺失的索引迁移文件；并在提交合并请求前先采用非阻塞索引创建方式控制影响。公司称，借助M2.7，其曾多次将线上生产系统事故的恢复时间缩短到3分钟以内。 https://filecdn.minimax.chat/public/d070816d-2c2a-4a5c-a441-48c9dd19d44d.mp4 MiniMax同时公布了多项基准测试结果。按照官方数据，M2.7在SWE-Pro上达到56.22%，在Multi-SWE Bench上为52.7，在VIBE-Pro上为55.6，在Terminal Bench 2上为57.0。办公场景方面，公司表示，模型在Excel、PowerPoint和Word上的复杂编辑能力得到提升，尤其是在多轮修改和高保真编辑任务中表现更强。在GDPval-AA评测中，M2.7的ELO分数达到1495；在Toolathon中取得46.3；在MM Claw测试中，面对40个超过2000 token的复杂技能时，技能遵循率保持在97%。 MiniMax还介绍了低资源机器学习场景下的初步探索。M2.7参加了22项由OpenAI开源的MLE Bench Lite级别竞赛，这些竞赛可在单张A30 GPU上运行。公司为此设计了包含短期记忆、自我反馈和自我优化三部分的简单框架，并进行了三次、每次24小时的迭代演进实验。官方称，最佳一次实验最终获得9枚金牌、5枚银牌和1枚铜牌，三次实验的平均奖牌率达到66.6%。除工作场景外，MiniMax还表示，M2.7在角色一致性和情绪智能方面也有提升，并展示了名为OpenRoom的初步演示系统，用于在Web图形界面中提供更具互动性的代理体验。