Flux es la IA que ha puesto fin al enfrentamiento MidJourney vs. Stable Diffusion: ha batido a ambos

Aunque en ese momento pasó algo desapercibido para el público general, el pasado 1 de agosto de 2024 ocurrió algo importante en el campo de la IA: el anuncio oficial de la fundación Black Forest Labs, un nuevo laboratorio (europeo, para más señas) dedicado a la investigación y desarrollo de modelos de inteligencia artificial generativa, especialmente en la creación de medios visuales (imágenes y vídeos), gracias a la participación de expertos que anteriormente trabajaron en la creación de modelos como VQGAN, Latent Diffusion y Stable Diffusion.



Pero esta startup no se ha limitado a llegar al mercado y decir «Estamos aquí», sino que ya ha dejado claro que sus integrantes ya venían trabajando desde hacía tiempo en este desembarco y, de hecho, han lanzado una primera suite de modelos de generación de imágenes que ya está causando un gran impacto en la comunidad tecnológica…

=> Recibir por Whatsapp las noticias destacadas

… hablamos de FLUX.1, diseñada para establecer un nuevo estándar en la síntesis de imágenes a partir de texto. Esta suite de modelos incluye tres variantes diseñadas para satisfacer diferentes necesidades:

  1. FLUX.1 [pro]: Es la versión más avanzada, ofreciendo el mejor rendimiento en generación de imágenes, con una adherencia precisa a los prompts, alta calidad visual, y diversidad en los resultados. Está disponible a través de API y en plataformas como Replicate, Freepik o fal.ai, pero no se ofrece como modelo de código abierto.
  2. FLUX.1 [dev]: Destinado a usos no comerciales, este modelo es una versión destilada de FLUX.1 [pro], que mantiene una calidad y adherencia al prompt similar, pero con un menor coste computacional. Está disponible en HuggingFace para la comunidad investigadora y entusiastas de la IA.
  3. FLUX.1 [schnell]: Enfocado en el desarrollo local y uso personal, este modelo es el más rápido de los tres y está disponible bajo una licencia Apache 2.0, lo que permite su uso comercial sin restricciones.

Comparando con los competidores

Desde su lanzamiento, los modelos FLUX.1 han recibido grandes elogios dentro de la comunidad de usuarios de IA, destacando especialmente por su capacidad para generar imágenes de alta calidad con adherencia precisa a los prompts (especialmente notable en los casos en que se especifica un texto a generar dentro de la imagen).

Esta nueva familia de modelos ha revitalizado el panorama de la generación de imágenes ‘open source’, especialmente después de que modelos como Stable Diffusion 3 no lograron cumplir con las expectativas de la comunidad.

La capacidad de los modelos FLUX.1 para manejar una variedad de estilos y su eficiencia en la generación de imágenes ha llevado a algunos expertos a considerarlo como un posible reemplazo de Midjourney en aplicaciones open-source.

Comparados con otros modelos líderes como Midjourney v6.0 y DALL·E 3, FLUX.1 ha demostrado un rendimiento superior en aspectos clave como la diversidad de estilos, la complejidad de escenas y la legibilidad del texto generado.

Fotogramas de vídeos animados a partir de imágenes generadas por Flux.

Calidad de generación de imágenes

  • Flux: Destaca por crear atmósferas realistas y precisas, con excelente uso de iluminación y sombra. Sobresale en generar imágenes hiperrealistas, equilibrando todos los elementos del prompt de manera detallada y precisa.
  • Stable Diffusion (SD3 Medium): Produce imágenes atractivas, aunque con algunas limitaciones en la representación morfológica y ocasionalmente no capta completamente el estilo fotográfico requerido. La coherencia visual puede verse afectada en ciertos detalles, como la ubicación de las personas y los elementos en la imagen.
  • MidJourney: Genera imágenes detalladas y dinámicas con un alto nivel de estilo, aunque a veces pierde precisión en la adherencia exacta al prompt, especialmente en tomas de cuerpo completo o fondos específicos.

Adherencia al prompt

Ahí donde MidJourney es conocido por su habilidad para interpretar prompts de manera creativa (pero a menudo sacrificando la adherencia exacta a favor de una composición visualmente impactante), Flux sobresale en adherirse de manera precisa a los prompts, capturando todos los elementos solicitados y manteniendo la coherencia con el estilo y la composición indicados.

OJO a esos textos, que quedan SÚPER

Herramientas de colaboración

Ahí donde SD y MidJourney se enfocan en los creadores individuales, Flux ofrece herramientas para la colaboración en equipo, permitiendo que múltiples usuarios trabajen en el mismo proyecto en tiempo real, lo cual es ideal para equipos de diseño que requieren coordinación.

Hacia el vídeo mediante IA

El impacto de Black Forest Labs no se limita a la generación de imágenes: ya ha adelantado que está trabajando en una próxima suite de modelos de generación de video a partir de texto, lo que promete llevar las capacidades creativas de su tecnología a un nuevo nivel.

Pero, por ahora, la plataforma de pago Runway está combinando las imágenes generadas por Flux con su modelo de generación de vídeo Gen-3 (dotado de funciones de-imagen-a-vídeo) para animar las primeras logrando resultados de inapelable realismo que hacen cada día un poco más difícil distinguir la realidad de los deepfakes: ya te hemos hablado de algunos ejemplos.

Imagen | Black Forest Labs mediante Flux

En Genbeta | Sora es la mejor IA de 2024 y no la podemos usar. Así que en China acaban de copiarla para que generemos vídeos increíbles

Fuente: Link