Google potencia Gemini con edición de imágenes integrada: así funciona esta nueva herramienta de IA

La aplicación Gemini de Google está sumando una capacidad que muchos usuarios venían esperando: la posibilidad de editar imágenes directamente dentro del chatbot. A partir de ahora, no será necesario salir de la conversación para realizar ajustes, agregar o quitar objetos, cambiar fondos o incluso modificar detalles específicos como el color del cabello. Esta nueva función se basa en el modelo Gemini 2.0 Flash, y ya está disponible de forma gradual para usuarios en más de 45 idiomas.

¿Qué permite hacer esta nueva función de edición nativa?

Imagina que tienes una foto de una mesa vacía. Puedes simplemente subirla a la app de Gemini y decirle: «Agrega un jarrón con flores sobre la mesa». O si tienes una selfie y quieres ver cómo te verías con otro peinado, solo tienes que pedíselo con palabras.

eju.tv

Entre las opciones disponibles, los usuarios podrán:

Agregar, reemplazar o eliminar objetos de una imagen.
Mejorar el fondo o cambiarlo completamente.
Realizar ajustes faciales o personales, como cambiar el color de ojos o cabello.
Editar tanto imágenes generadas por IA como fotografías reales subidas por el usuario.
Crear contenido visual que acompañe textos, como pedir una historia para niños con ilustraciones incluidas.

Todo esto, sin necesidad de saber usar programas como Photoshop o apps complicadas. Solo hace falta una conversación clara con el asistente.

=> Recibir por Whatsapp las noticias destacadas

Una funcionalidad que crece con el usuario

Google comenzó probando esta herramienta en marzo, dentro de su plataforma AI Studio, un entorno más orientado a desarrolladores. Tras los ajustes realizados y una mejora significativa en la precisión del modelo con Gemini 2.0 Flash, ahora esta funcionalidad se expande al gran público.

No solo se trata de edición estática. La app permite edición multietapa: puedes ir dando instrucciones por partes, afinando los cambios paso a paso. Es como tener una charla con un diseñador gráfico que va entendiendo lo que quieres en tiempo real.

Este enfoque conversacional permite combinar texto e imagen en una experiencia contextualizada. Por ejemplo, puedes escribir el borrador de un cuento y pedir imágenes ilustrativas que lo acompañen.

Seguridad y transparencia ante los riesgos

Un punto delicado de la edición con IA es el posible uso para crear deepfakes o imágenes engañosas. Google asegura que su sistema está diseñado para rechazar peticiones ofensivas o peligrosas. Además, toda imagen generada o modificada con esta herramienta incluirá una marca de agua invisible llamada SynthID, que permite identificar el contenido como artificial. También está en pruebas la incorporación de marcas de agua visibles.

Competencia e integración futura

Google llegó más tarde al terreno de la generación de imágenes que sus competidores como ChatGPT, Copilot o Midjourney, y su primera incursión tuvo que ser retirada temporalmente por errores y resultados ofensivos. Con esta nueva versión, la empresa espera recuperar terreno, apoyándose en una experiencia mucho más segura y centrada en el usuario.

Incluso se está explorando integrar esta tecnología en iPhone para mejorar las respuestas de Siri, lo que podría abrir una nueva etapa en la interacción entre asistentes de voz e inteligencia artificial visual.

Lo que antes requería instalar apps complejas o conocimientos de edición digital, ahora se vuelve accesible con un simple «quiero que…». Como si hablaras con alguien que entiende tus intenciones, Gemini convierte tus ideas en imágenes, con ajustes en tiempo real y sin tecnicismos.

Esto puede cambiar la forma en que las personas editan sus fotos para redes sociales, diseñan contenido visual o simplemente juegan con su creatividad. Y todo sin moverse de la aplicación.

Fuente: Link