Qwen3-TTS：开源语音生成新纪元

1/25/2026

语音合成技术（TTS）正在经历一场从单纯的“朗读”到具有创造力的“生成”的范式转变。Qwen 团队最新开源的 Qwen3-TTS 系列模型，彻底打破了传统语音生成的局限。该系统并未采用业界常见的 DiT（扩散 Transformer）架构，而是基于自研的创新性 Qwen3-TTS-Tokenizer-12Hz 多码本语音编码器。这种独特的架构设计使得模型不仅能高效压缩音频数据，还能完美保留语音中至关重要的“副语言信息”，如呼吸声、语气停顿、情感起伏以及环境声学特征。这使得合成出来的语音不再冰冷机械，而是充满了人类特有的温度与细节，极大地提升了听觉体验的真实感。 http://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3-TTS-0115/table1.png http://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3-TTS-0115/table2.png 对于开发者而言，Qwen3-TTS 最大的突破在于其“所想即所听”的声音设计能力与极致的响应速度。通过“声音设计”功能，用户无需寻找参考音频，只需输入如“低沉稳重的中年男声，语速缓慢且带有威严感”的自然语言描述，模型即可生成独一无二的声音形象，这为游戏开发和内容创作提供了无限可能。在实时交互场景中，得益于创新的“双轨”（Dual-Track）流式生成架构，模型在接收到第一个字符后即可开始输出音频，端到端延迟低至 97 毫秒，几乎消除了对话中的等待感。此外，该模型支持中、英、日、韩、法、德等 10 种主流语言，并具备强大的跨语言复刻能力。这意味着，你可以克隆一个中文使用者的声音，并让他流利地在日语或西班牙语中交流，同时保持其原有的音色和个性，为全球化应用提供了完美的解决方案。