Dia: el nuevo modelo de texto a voz que compite con los gigantes de la IA

¿Imaginas poder escribir un guion y que una inteligencia artificial lo interprete con la naturalidad de una charla entre amigos? Eso es justo lo que propone Dia, un modelo de texto a voz (TTS, por sus siglas en inglés) que está dando de qué hablar en la comunidad tecnológica. No se trata de un desarrollo de Google, OpenAI o ElevenLabs, sino de una startup diminuta, Nari Labs, formada por solo dos personas… pero con grandes ideas.

¿Qué es Dia y qué lo hace especial?

Dia es un modelo de texto a voz de código abierto, con 1.600 millones de parámetros y diseñado para generar diálogos realistas directamente a partir de texto. ¿La diferencia frente a otras herramientas similares? Su capacidad de transmitir emociones, pausas naturales, cambios de tono y hasta sonidos no verbales como risas, toses o suspiros.

eju.tv

Mientras que muchos modelos TTS actuales producen voces planas o robóticas, Dia busca sonar como si una persona real estuviera interpretando el guion. Por ejemplo, si el texto incluye la etiqueta (laughs), Dia lo convierte en una risa real, no en una palabra dicha. En otros modelos, esa etiqueta termina en una expresión como «ja ja» o se ignora por completo.

¿Quién está detrás de este proyecto?

Sus creadores, sin experiencia previa en inteligencia artificial, comenzaron este camino inspirados por una función de podcast de NotebookLM (de Google). Al no encontrar un sistema TTS que sonara verdaderamente humano, decidieron crear el suyo. Sin financiación inicial y con acceso a chips TPU de Google, entrenaron el modelo desde cero y lo liberaron para que cualquiera pueda probarlo, descargarlo y adaptarlo.

=> Recibir por Whatsapp las noticias destacadas

Todo el código y los pesos del modelo están disponibles en GitHub y Hugging Face, dos plataformas clave para el desarrollo de IA. Además, ofrecen una demo en línea para que puedas generar audio sin instalar nada.

¿Cómo funciona Dia?

Una de las características más llamativas de Día es su compatibilidad con etiquetas personalizadas:

Puedes usar [S1], [S2] para marcar turnos de conversación entre personajes.
Incluir indicaciones como (suspira), (se aclara la garganta) o (ríe) que son interpretadas de manera natural.
Añadir un clip de audio de referencia para que el modelo imite el tono o estilo de voz.

En pocas palabras, puedes escribir un guion completo con instrucciones de actuación y Dia lo interpretará como lo haría un actor de doblaje. Si te gusta experimentar, incluso puedes controlar el resultado fijando la «semilla» del modelo para obtener voces consistentes o dejar que cada ejecución sea distinta.

Comparaciones con ElevenLabs y otros modelos

Para entender el potencial de Dia, Nari Labs compartió una serie de comparativas con herramientas líderes del mercado como ElevenLabs Studio y Sesame CSM-1B (creado por uno de los cofundadores de Oculus).

En estas pruebas, Día destacó por su naturalidad. No solo reproduce palabras, sino que interpreta emociones. En una escena de emergencia simulada, el modelo fue capaz de reflejar el estrés y la urgencia del momento con un ritmo creíble. Otros modelos, en cambio, tendieron a “aplanar” la voz o perdieron ritmo.

Incluso con contenido difícil, como letras de rap con ritmo complejo, Día logró mantener el tempo y el estilo. Esto es algo que suele ser un reto para muchos TTS, que tienden a sonar entrecortados o monótonos.

¿Qué tan accesible es Dia?

El modelo requiere una tarjeta gráfica con al menos 10 GB de VRAM, lo cual lo hace viable para usuarios avanzados y desarrolladores. En entornos empresariales, como con la GPU NVIDIA A4000, puede generar hasta 40 tokens por segundo, lo que se traduce en un rendimiento fluido para generar diálogos o narraciones largas.

Aunque por ahora solo está disponible en inglés, sus creadores planean mejorar la compatibilidad con CPU y ofrecer una versión cuantizada para facilitar su uso en equipos menos potentes. También están desarrollando una versión más amigable pensada para usuarios no técnicos, ideal para quienes quieran experimentar con voces personalizadas o crear contenido sin complicaciones.

¿Qué implica que sea de código abierto?

Uno de los puntos más atractivos de Día es que se distribuye bajo la licencia Apache 2.0, lo que permite su uso comercial. Esto lo convierte en una excelente opción para desarrolladores de apps, estudios de videojuegos, empresas de contenido educativo o startups que busquen integrar voces naturales en sus productos sin depender de servicios de pago.

Eso sí, Nari Labs ha establecido reglas claras: está prohibido usar Día para suplantar identidades, difundir desinformación o realizar actividades ilegales. Promueven un uso ético y responsable, y fomentan la participación comunitaria a través de su servidor de Discord y el repositorio en GitHub.

Casos de uso posibles

Las aplicaciones de Día son amplias:

Narración de audiolibros o cuentos infantiles con diferentes voces para cada personaje.
Creación de podcasts automatizados con voces expresivas y no repetitivas.
Asistentes virtuales con más “personalidad” y capacidad para mostrar emociones.
Apoyo a personas con discapacidades que necesiten una voz digital más humana.
Producción de contenido para redes sociales sin necesidad de grabar audio real.

En todos estos casos, tener un modelo que entienda la estructura de una conversación y represente con fidelidad las emociones marca una diferencia enorme.

Dia es más que una herramienta de texto a voz. Es un paso hacia una comunicación sintética más auténtica, abierta y colaborativa. Si estás en el mundo del desarrollo, la creación de contenidos o simplemente sientes curiosidad por las tecnologías emergentes, vale la pena echarle un vistazo. Tal vez, muy pronto, escucharás voces generadas por Día en tu podcast favorito… sin saberlo.

Fuente: Link