MiniMax presenta M2.7 como un modelo que se mejora

4/12/2026
MiniMax presentó M2.7 como un nuevo paso en la evolución de sus modelos y lo definió como el primero de la serie M2 que participa activamente en su propio proceso de mejora. En su anuncio del 18 de marzo de 2026, la compañía explicó que M2.7 no solo ejecuta tareas, sino que también interviene en la construcción y el ajuste del agent harness, de la memoria y del sistema de habilidades que sostienen las siguientes iteraciones del modelo. https://filecdn.minimax.chat/public/platform_web/offical-news/%E9%A3%9E%E4%B9%A6%E4%BA%91%E6%96%87%E6%A1%A3/img-1.png Según MiniMax, M2.7 puede construir entornos complejos de agentes y completar tareas de productividad de alta complejidad apoyándose en Agent Teams, Skills avanzadas y búsqueda dinámica de herramientas. La empresa indicó que, durante el propio desarrollo de M2.7, el modelo actualizó su memoria, construyó decenas de habilidades complejas para apoyar experimentos de aprendizaje por refuerzo y utilizó los resultados de esas pruebas para mejorar tanto su proceso de aprendizaje como su harness. MiniMax sostuvo que ese circuito marca el inicio de una dinámica de autoevolución del modelo. https://filecdn.minimax.chat/public/platform_web/offical-news/%E9%A3%9E%E4%B9%A6%E4%BA%91%E6%96%87%E6%A1%A3/img-2.png La compañía también compartió un flujo de trabajo interno con el que explora los límites de estas capacidades. En ese entorno, una versión interna de M2.7 recibió la tarea de construir un harness de investigación capaz de colaborar con distintos grupos de proyectos, abarcando canalizaciones de datos, entornos de entrenamiento, infraestructura, colaboración entre equipos y memoria persistente. MiniMax afirmó que esa base ayuda a los investigadores a iterar hacia mejores modelos bajo una guía humana establecida. https://filecdn.minimax.chat/public/platform_web/offical-news/%E9%A3%9E%E4%B9%A6%E4%BA%91%E6%96%87%E6%A1%A3/img-3.png Uno de los ejemplos más detallados aparece en la rutina diaria del equipo de RL. La empresa explicó que un investigador puede discutir una idea experimental con el agente y que este ayuda con la revisión de literatura, sigue una especificación previamente definida, organiza datos y otros artefactos y pone en marcha los experimentos. Mientras esas pruebas están en curso, el sistema puede supervisar el progreso, leer logs, activar procesos de depuración, analizar métricas, corregir código, enviar merge requests y ejecutar smoke tests. MiniMax señaló que esto reduce la participación humana a decisiones críticas y conversaciones clave, y añadió que M2.7 ya puede encargarse de entre el 30% y el 50% de ese flujo de trabajo. https://filecdn.minimax.chat/public/platform_web/offical-news/%E9%A3%9E%E4%B9%A6%E4%BA%91%E6%96%87%E6%A1%A3/video-1.mp4 Durante ese proceso, la empresa identificó otra capacidad central: la mejora recursiva del propio harness. De acuerdo con MiniMax, su sistema interno puede recopilar retroalimentación de manera autónoma, construir conjuntos de evaluación para tareas internas e iterar sobre su arquitectura, la implementación de skills o MCP y los mecanismos de memoria para resolver mejor las tareas. En un experimento interno centrado en el rendimiento de programación, M2.7 trabajó de forma completamente autónoma durante más de 100 rondas, repitiendo un ciclo de análisis de fallos, planificación de cambios, modificación del código base, ejecución de evaluaciones, comparación de resultados y decisión sobre mantener o revertir cambios. La compañía dijo que el resultado fue una mejora del 30% en conjuntos internos de evaluación. https://filecdn.minimax.chat/public/platform_web/offical-news/%E9%A3%9E%E4%B9%A6%E4%BA%91%E6%96%87%E6%A1%A3/video-2.mp4 https://file.cdn.minimax.io/public/d92a6eb4-a4b8-4906-b76a-d627c814a2c0.gif En ingeniería de software, MiniMax situó a M2.7 en escenarios reales de producción. El comunicado destacó tareas como análisis de logs, búsqueda de errores, refactorización, seguridad de código, aprendizaje automático y desarrollo Android. Como ejemplo, la empresa describió la depuración en producción: el modelo puede relacionar métricas de monitorización con líneas temporales de despliegue, analizar trazas, verificar hipótesis en bases de datos, detectar archivos de migración de índices ausentes y optar por una creación de índices no bloqueante antes de enviar un merge request. MiniMax afirmó que, en varias ocasiones, logró reducir el tiempo de recuperación de incidentes en producción a menos de tres minutos. https://filecdn.minimax.chat/public/d070816d-2c2a-4a5c-a441-48c9dd19d44d.mp4 La empresa también difundió métricas en distintos benchmarks. M2.7 obtuvo 56,22% en SWE-Pro, 52,7 en Multi-SWE Bench, 55,6 en VIBE-Pro y 57,0 en Terminal Bench 2. En el trabajo de oficina, MiniMax dijo que reforzó el desempeño del modelo en Excel, PowerPoint y Word, especialmente en revisiones de varias rondas y edición de alta fidelidad. En GDPval-AA, M2.7 alcanzó un ELO de 1495. En Toolathon logró 46,3 y en MM Claw mantuvo un 97% de cumplimiento de habilidades a lo largo de 40 skills complejas. Además, en 22 competiciones MLE Bench Lite, el mejor recorrido consiguió 9 medallas de oro, 5 de plata y 1 de bronce, mientras que la tasa media de medallas en tres ejecuciones fue del 66,6%. MiniMax añadió que M2.7 también mejora la consistencia de personaje y la inteligencia emocional, y presentó OpenRoom como una demostración preliminar de interacción con agentes en una interfaz web.