Qwen3-TTS:开源语音生成新纪元

1/25/2026
语音合成技术(TTS)正在经历一场从单纯的“朗读”到具有创造力的“生成”的范式转变。Qwen 团队最新开源的 Qwen3-TTS 系列模型,彻底打破了传统语音生成的局限。该系统并未采用业界常见的 DiT(扩散 Transformer)架构,而是基于自研的创新性 Qwen3-TTS-Tokenizer-12Hz 多码本语音编码器。这种独特的架构设计使得模型不仅能高效压缩音频数据,还能完美保留语音中至关重要的“副语言信息”,如呼吸声、语气停顿、情感起伏以及环境声学特征。这使得合成出来的语音不再冰冷机械,而是充满了人类特有的温度与细节,极大地提升了听觉体验的真实感。 http://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3-TTS-0115/table1.png http://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3-TTS-0115/table2.png 对于开发者而言,Qwen3-TTS 最大的突破在于其“所想即所听”的声音设计能力与极致的响应速度。通过“声音设计”功能,用户无需寻找参考音频,只需输入如“低沉稳重的中年男声,语速缓慢且带有威严感”的自然语言描述,模型即可生成独一无二的声音形象,这为游戏开发和内容创作提供了无限可能。在实时交互场景中,得益于创新的“双轨”(Dual-Track)流式生成架构,模型在接收到第一个字符后即可开始输出音频,端到端延迟低至 97 毫秒,几乎消除了对话中的等待感。此外,该模型支持中、英、日、韩、法、德等 10 种主流语言,并具备强大的跨语言复刻能力。这意味着,你可以克隆一个中文使用者的声音,并让他流利地在日语或西班牙语中交流,同时保持其原有的音色和个性,为全球化应用提供了完美的解决方案。