Qwen3-TTS: Revolución en Voz IA
1/25/2026
La tecnología de síntesis de voz ha dado un salto cuántico, pasando de ser una herramienta funcional a un motor creativo. El equipo de Qwen ha liberado la familia Qwen3-TTS, transformando la simple conversión de texto a voz en una herramienta de "diseño de audio" completa y accesible para todos. A diferencia de los sistemas tradicionales que a menudo suenan planos o robóticos debido a arquitecturas pesadas, Qwen3-TTS emplea un innovador codificador de voz de 12Hz y una arquitectura de múltiples libros de códigos (multi-codebook). Esta avanzada tecnología permite capturar la esencia misma de la comunicación humana, preservando detalles sutiles como la respiración, el tono emocional, las pausas dramáticas y la acústica ambiental, todo ello sin depender de arquitecturas de difusión (DiT) que suelen ser lentas y costosas de ejecutar.
http://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3-TTS-0115/table1.png
http://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3-TTS-0115/table2.png
Lo más impresionante para los desarrolladores y empresas es la combinación de creatividad ilimitada y velocidad extrema. Con la nueva función de "Diseño de Voz", ya no es necesario tener una grabación de referencia de un actor; basta con describir lo que necesitas en lenguaje natural. Puedes pedir "una voz femenina joven, alegre, que hable rápido con un tono sarcástico", y la IA generará esa identidad sonora única al instante. Para aplicaciones críticas donde el tiempo de respuesta es vital, como asistentes virtuales inteligentes o personajes de videojuegos interactivos, la velocidad lo es todo. Gracias a su arquitectura "Dual-Track", el modelo comienza a emitir audio tras procesar un solo carácter, logrando una latencia de apenas 97 milisegundos. Disponible en versiones de 1.7B y 0.6B parámetros, el sistema soporta 10 idiomas principales, incluyendo español, inglés, chino y portugués. Esto permite que un personaje creado en español pueda hablar chino o inglés manteniendo su timbre y personalidad intactos, abriendo un nuevo mundo de posibilidades para la localización de contenido global.