Qué es Veo, la IA de Google que hace videos a partir de texto

Imagínate un mundo donde cualquier persona pueda ser director de su propia película, sin necesidad de equipos costosos o años de aprendizaje en técnicas de video. Bueno, parece que Google ha dado un paso gigante hacia ese futuro con Veo, su más reciente innovación en el campo del video generativo, competencia de Sora, de OpenAI. Presentado recientemente en Google I/O 2024, Veo promete revolucionar la forma en que creamos y consumimos contenido visual, y por los ejemplos mostrados, está a punto de conseguirlo.

Lo primero que tienes que saber es que Veo es capaz de producir videos en 1080p y de más de un minuto de duración, algo que hasta ahora era bastante complicado para los modelos de IA. Pero no es solo la calidad y la duración lo que impresiona, sino la habilidad del modelo para adaptarse a una variedad increíble de estilos visuales y cinematográficos. Desde secuencias dramáticas hasta documentales naturales, Veo puede manejarlo todo con una facilidad sorprendente.



Uno de los grandes avances es su comprensión del lenguaje. Veo no solo escucha (figurativamente, claro) sino que realmente entiende los matices del lenguaje humano, permitiendo que los creadores se comuniquen con el modelo como si fuera casi otro humano más en el equipo de producción.

Podéis ver ejemplos en deepmind.google y en este vídeo:

Google no ha escatimado en colaboraciones. Trabajando de la mano con creativos y cineastas, entre ellos Donald Glover y su estudio Gilga, han logrado no solo probar las capacidades de Veo, sino también afinarlas según las necesidades reales de quienes crean contenido diariamente.

Desde el punto de vista técnico, Veo se construye sobre una base sólida de investigación previa en modelos de video generativo como Generative Query Network (GQN) y DVD-GAN, entre otros. Esto ha enriquecido la calidad de los videos y la forma en que estos se generan, simulando físicas realistas y movimientos coherentes que antes eran un desafío.

Por cierto, usan también SynthID, para que cada video generado lleve una marca de agua que asegure su autenticidad y origen, lo cual es crucial en tiempos donde el contenido falso puede ser tan fácilmente distribuido.

Lo que Google está haciendo con Veo y sus otras herramientas de IA  es un salto hacia nuevas formas de expresión creativa que, hasta hace poco, parecían reservadas solo para unos pocos. Se acercan grandes cambios en el mundo creativo, eso está claro.

Fuente: Link