La programación agentic ocupa el centro del anuncio. Qwen afirma que el modelo supera con amplitud a su predecesor directo, Qwen3.5-35B-A3B, y que también compite con modelos densos mucho más grandes, como Qwen3.5-27B y Gemma4-31B. Los gráficos compartidos con el lanzamiento muestran a Qwen3.6-35B-A3B con 73.4 en SWE-bench Verified, 67.2 en SWE-bench Multilingual, 49.5 en SWE-bench Pro y 51.5 en Terminal-Bench 2.0. En el mismo conjunto de resultados aparecen 52.6 en QwenClawBench, 29.4 en NL2Repo, 37.0 en MCPMark y una puntuación Elo de 1397 en QwenWebBench. La publicación también incluye resultados más amplios en agentes, como 67.2 en TAU3-Bench, 62.8 en MCP-Atlas y 60.1 en WideSearch.⚡ Meet Qwen3.6-35B-A3B:Now Open-Source!🚀🚀
— Qwen (@Alibaba_Qwen) 16 de abril de 2026
A sparse MoE model, 35B total params, 3B active. Apache 2.0 license.
🔥 Agentic coding on par with models 10x its active size
📷 Strong multimodal perception and reasoning ability
🧠 Multimodal thinking + non-thinking modes… pic.twitter.com/UMiChPaLid
Más allá del código, la empresa presenta Qwen3.6-35B-A3B como un modelo más versátil, que mantiene tanto modos multimodal thinking como non-thinking. En las tablas de lenguaje y razonamiento compartidas en el anuncio, el modelo alcanza 85.2 en MMLU-Pro, 93.3 en MMLU-Redux, 90.0 en C-Eval y 86.0 en GPQA. En pruebas STEM y de resolución de problemas, los resultados publicados incluyen 80.4 en LiveCodeBench v6, 83.6 en HMMT Feb 26, 78.9 en IMOAnswerBench y 92.7 en AIME26. Con este bloque de métricas, Qwen intenta mostrar que el modelo no se limita a tareas de código, aunque la narrativa principal del lanzamiento siga centrada en el trabajo agentic para desarrolladores.LM Performance:Qwen3.6-35B-A3B outperforms the dense 27B-param Qwen3.5-27B on several key coding benchmarks and dramatically surpasses its direct predecessor Qwen3.5-35B-A3B, especially on agentic coding and reasoning tasks. pic.twitter.com/PyXDNruoy2
— Qwen (@Alibaba_Qwen) 16 de abril de 2026
La multimodalidad es el otro gran frente del anuncio. Qwen sostiene que la serie Qwen3.6 es multimodal de forma nativa y que Qwen3.6-35B-A3B muestra capacidades de percepción y razonamiento multimodal muy por encima de lo que su tamaño haría pensar. El texto oficial afirma que, en la mayoría de los benchmarks de visión y lenguaje, el modelo iguala a Claude Sonnet 4.5 e incluso lo supera en varias tareas. Los resultados publicados muestran 81.7 en MMMU, 75.3 en MMMU-Pro, 85.3 en RealWorldQA, 92.8 en MMBench EN-DEV v1.1, 89.9 en OmniDocBench1.5, 81.9 en CC-OCR y 92.7 en AI2D_TEST. Qwen pone un énfasis especial en la inteligencia espacial, donde el modelo registra 92.0 en RefCOCO y 50.8 en ODInW13. El mismo paquete de pruebas incluye además métricas de vídeo, con 86.6 en VideoMME, 83.7 en VideoMMMU y 86.2 en MLVU. En conjunto, el lanzamiento posiciona a Qwen3.6-35B-A3B como una propuesta abierta enfocada en programación agentic, comprensión multimodal y eficiencia de inferencia. La compañía insiste en lo que el modelo puede ofrecer con solo unos 3 mil millones de parámetros activos, mientras utiliza el bloque de benchmarks para mostrar que también aspira a cubrir razonamiento, comprensión documental, tareas visuales y flujos de trabajo más amplios basados en agentes.VLM Performance:Qwen3.6 is natively multimodal, and Qwen3.6-35B-A3B showcases perception and multimodal reasoning capabilities that far exceed what its size would suggest, with only around 3 billion activated parameters. Across most vision-language benchmarks, its performance… pic.twitter.com/nOVBNlVfzW
— Qwen (@Alibaba_Qwen) 16 de abril de 2026