这次发布最强调的方向是代理式编程能力。Qwen表示,Qwen3.6-35B-A3B相较于直接前代Qwen3.5-35B-A3B有明显提升,同时还能与体量更大的稠密模型竞争,例如Qwen3.5-27B和Gemma4-31B。官方给出的图表显示,该模型在SWE-bench Verified上达到73.4,在SWE-bench Multilingual上为67.2,在SWE-bench Pro上为49.5,在Terminal-Bench 2.0上为51.5。配套材料还列出了52.6的QwenClawBench、29.4的NL2Repo、37.0的MCPMark,以及1397 Elo的QwenWebBench成绩。除此之外,官方还给出67.2的TAU3-Bench、62.8的MCP-Atlas和60.1的WideSearch分数,用来说明模型在更广泛代理任务上的表现。⚡ Meet Qwen3.6-35B-A3B:Now Open-Source!🚀🚀
— Qwen (@Alibaba_Qwen) 2026年4月16日
A sparse MoE model, 35B total params, 3B active. Apache 2.0 license.
🔥 Agentic coding on par with models 10x its active size
📷 Strong multimodal perception and reasoning ability
🧠 Multimodal thinking + non-thinking modes… pic.twitter.com/UMiChPaLid
除了编码,Qwen也把Qwen3.6-35B-A3B描述为更通用的模型。官方说明中提到,该模型同时支持multimodal thinking和non-thinking两种模式。在语言与推理相关评测中,Qwen3.6-35B-A3B取得了MMLU-Pro 85.2、MMLU-Redux 93.3、C-Eval 90.0以及GPQA 86.0的成绩。在STEM和问题求解方面,官方列出的结果包括LiveCodeBench v6的80.4、HMMT Feb 26的83.6、IMOAnswerBench的78.9和AIME26的92.7。通过这一组数据,Qwen试图说明该模型虽然以代理式编程为主线,但并不局限于代码场景本身。LM Performance:Qwen3.6-35B-A3B outperforms the dense 27B-param Qwen3.5-27B on several key coding benchmarks and dramatically surpasses its direct predecessor Qwen3.5-35B-A3B, especially on agentic coding and reasoning tasks. pic.twitter.com/PyXDNruoy2
— Qwen (@Alibaba_Qwen) 2026年4月16日
多模态能力是这次发布的另一条主线。Qwen表示,Qwen3.6系列原生支持多模态,而Qwen3.6-35B-A3B在感知和多模态推理上的表现远超其尺寸给人的直观预期。官方文字中提到,在多数视觉语言基准测试中,该模型与Claude Sonnet 4.5表现接近,并在部分任务上实现超过。公开图表显示,Qwen3.6-35B-A3B在MMMU中取得81.7,在MMMU-Pro中为75.3,在RealWorldQA中为85.3,在MMBench EN-DEV v1.1中为92.8,在OmniDocBench1.5中为89.9,在CC-OCR中为81.9,在AI2D_TEST中为92.7。Qwen还特别强调了空间智能表现,其中RefCOCO平均分为92.0,ODInW13为50.8。视频理解方面,官方同时公布了VideoMME 86.6、VideoMMMU 83.7和MLVU 86.2等结果。 整体来看,Qwen将Qwen3.6-35B-A3B定位为一款围绕代理式编程、多模态理解和推理效率展开的开源模型。整篇发布内容始终围绕“仅用约30亿激活参数可以做到什么”这一点展开,而配套评测则被用来说明,这款模型不仅面向代码生成,也覆盖了推理、文档理解、视觉任务以及更广泛的代理工作流。VLM Performance:Qwen3.6 is natively multimodal, and Qwen3.6-35B-A3B showcases perception and multimodal reasoning capabilities that far exceed what its size would suggest, with only around 3 billion activated parameters. Across most vision-language benchmarks, its performance… pic.twitter.com/nOVBNlVfzW
— Qwen (@Alibaba_Qwen) 2026年4月16日