La inteligencia artificial de video que ahora también crea sonido

Google ha presentado Veo 3, su más reciente modelo de inteligencia artificial para generar vídeos, y esta vez da un paso más allá: es capaz de crear bandas sonoras, efectos de sonido y hasta diálogos que se sincronizan con los clips que produce. Este anuncio tuvo lugar en la conferencia de desarrolladores Google I/O 2025, marcando una evolución significativa respecto a su versión anterior, Veo 2.

Más que imágenes en movimiento: ahora con sonido

Hasta ahora, muchos generadores de video impulsados por IA funcionaban como el cine mudo: ofrecían imágenes, pero carecían de sonido. Con Veo 3, Google entra de lleno en el terreno audiovisual completo. La IA no solo produce videos de alta calidad, sino que puede entender el contenido visual y generar audio sincronizado, incluyendo ruidos ambientales, efectos, música de fondo e incluso voces humanas.

eju.tv

Por ejemplo, si le pides a Veo 3 que cree una escena en la playa al atardecer con dos niños jugando, podrá no solo mostrar la imagen sino añadir el sonido de las olas, risas infantiles y una música suave acorde con el ambiente.

Cómo funciona y dónde está disponible

Veo 3 está disponible desde ya en la app de Gemini, el chatbot de Google, como parte del plan AI Ultra, que tiene un precio de 249,99 dólares al mes. Se puede activar mediante una descripción textual o incluso con una imagen, permitiendo a los usuarios generar contenido audiovisual a partir de una idea o referencia visual.

=> Recibir por Whatsapp las noticias destacadas

Detrás de esta tecnología está Google DeepMind, la división de investigación en inteligencia artificial de la compañía. Según explicó su CEO, Demis Hassabis, este modelo permite describir personajes, ambientes, sugerir diálogos y hasta indicar cómo debe sonar una voz.

El papel de la IA en la sincronización audiovisual

Uno de los puntos que diferencia a Veo 3 de otros modelos es su capacidad de comprender los píxeles del video y sincronizar automáticamente el sonido. Mientras que otras soluciones generan audio de forma independiente o en base a textos, Veo 3 analiza lo que muestra el video y adapta el audio a la acción visual.

Es como si un editor humano observara el video y decidiera qué sonidos colocar en cada momento, pero en este caso lo hace una IA en cuestión de segundos.

Un mercado saturado con un nuevo diferenciador

El terreno de los generadores de video por IA ha crecido rápidamente. Empresas como Runway, Lightricks, Genmo, Pika, Higgsfield, Kling, Luma, y también gigantes como OpenAI o Alibaba, están lanzando modelos similares. Sin embargo, la generación de sonido integrada podría ser el elemento clave que distinga a Veo 3 del resto, siempre y cuando Google logre cumplir sus promesas de calidad.

El entrenamiento del modelo: una caja negra

Google no ha revelado exactamente de dónde provienen los datos utilizados para entrenar a Veo 3. No obstante, dado que YouTube es propiedad de Google, es probable que parte del contenido utilizado provenga de allí. DeepMind ya ha sugerido en el pasado que los modelos podrían estar entrenados con material de esta plataforma.

Esta situación genera preocupaciones sobre los derechos de autor y el uso de contenido sin consentimiento explícito, un tema candente en el desarrollo de IA generativa.

Prevención de deepfakes y uso responsable

Para reducir los riesgos asociados a la desinformación, Google ha implementado su tecnología de marcado digital SynthID, que incrusta una marca invisible en cada fotograma generado. Esta herramienta permitirá identificar que el contenido fue creado por una IA, algo crucial ante el aumento de los deepfakes y otros usos engañosos de este tipo de tecnologías.

Mejoras en Veo 2 también

Aunque Veo 3 fue el protagonista del evento, Google también anunció nuevas funciones para Veo 2. Ahora permite a los usuarios subir imágenes de personajes, objetos y escenarios para mantener una coherencia visual en los clips. Además, puede interpretar movimientos de cámara como zooms, giros o paneos, y ofrece herramientas para editar objetos en los videos o cambiar el formato del encuadre, como pasar de vertical a horizontal.

Estas funcionalidades llegarán pronto a la plataforma Vertex AI API, permitiendo integrarlas en otras soluciones y flujos de trabajo profesionales.

Impacto en la industria creativa

Si bien estas herramientas abren posibilidades creativas inmensas, también generan incertidumbre laboral. Un estudio realizado en 2024 por el Animation Guild estima que más de 100.000 empleos en cine, televisión y animación en EE.UU. podrán verse afectados por la automatización mediante IA para 2026.

Esto plantea un dilema ético: ¿debería regularse el uso de estas herramientas? ¿Cómo se puede proteger a los creadores humanos mientras se fomenta la innovación?

Una herramienta poderosa que requiere responsabilidad

Veo 3 es un ejemplo claro de cómo la inteligencia artificial está cambiando la forma en que se produce contenido. Permite a cualquier persona, sin conocimientos técnicos, dar vida a escenas completas con imagen y sonido. Pero como toda herramienta poderosa, requiere un uso consciente y regulado.

Será interesante observar cómo evoluciona esta tecnología y cómo los creadores, plataformas y reguladores responden a sus posibilidades y desafíos.

Fuente: https://wwwhatsnew.com