Gemini ahora puede ver lo que ves: así funcionan las nuevas funciones de video en tiempo real de Google

Google ha dado un paso más en su estrategia de integrar inteligencia artificial de forma práctica en nuestra vida diaria. Esta vez lo ha hecho a través de Gemini Live, su asistente impulsado por IA, que ahora es capaz de interpretar lo que ves en la pantalla o con tu cámara en tiempo real.

¿La idea? Que puedas preguntarle sobre lo que estás mirando, y te responda de inmediato. Como si tuvieras un experto al lado que analiza lo que estás haciendo y te da una mano justo cuando lo necesitas.

eju.tv

¿Qué son exactamente estas nuevas funciones de Gemini?

Google ha comenzado a distribuir dos capacidades clave basadas en lo que presentó como Project Astra en 2024: lectura de pantalla en tiempo real y análisis de vídeo en vivo a través de la cámara del móvil.

Ambas funciones ya están comenzando a llegar a usuarios suscritos al plan Google One AI Premium, dentro de la modalidad avanzada de Gemini. En otras palabras: quienes pagan por la experiencia más completa de este asistente ya pueden ser parte de esta nueva fase.

=> Recibir por Whatsapp las noticias destacadas

1. Lectura de pantalla en tiempo real

Esta función permite que Gemini vea lo que tienes en la pantalla del móvil, y te ayude a entenderlo o a interactuar con ello. Por ejemplo:

Estás leyendo un PDF complejo: le preguntas a Gemini qué significa un párrafo técnico.
Navegas por un sitio web en otro idioma: Gemini lo traduce y te resume la información clave.
Ves una gráfica de datos: Gemini interpreta los números por ti y te ofrece conclusiones.

Como se ha visto en demostraciones compartidas por usuarios en Reddit, la IA detecta automáticamente el contenido activo y responde a preguntas relacionadas sin necesidad de copiar, pegar o describir lo que estás viendo. Esto representa un avance importante en accesibilidad y asistencia contextual.

2. Interpretación de vídeo en vivo con la cámara

La otra novedad es aún más interesante: Gemini puede ahora analizar lo que capturas con tu cámara en tiempo real. No es solo reconocimiento de objetos, sino comprensión contextual.

En un ejemplo difundido por Google, una persona muestra a cámara una pieza de cerámica recién esmaltada y le pide ayuda para elegir el color de pintura más adecuado. Gemini analiza la textura, los colores actuales, el entorno… y da sugerencias acordes.

Esto puede aplicarse a muchísimos casos cotidianos:

Muestras una planta: te dice si necesita agua o sol, o te ayuda a identificarla.
Enseñas un documento físico: Gemini te lo resume o traduce al instante.
Grabas una escena callejera: te orienta sobre dónde estás o qué lugares están cerca.

Desde wwwhatsnew.com vemos esto como una evolución natural pero potente de los asistentes de voz, que ahora no solo escuchan, sino también observan e interpretan tu entorno.

¿Cómo se activan estas funciones?

Actualmente, estas herramientas están en proceso de despliegue para usuarios de dispositivos Android que tengan una suscripción activa al plan Google One AI Premium, el mismo que da acceso a Gemini Advanced.

En algunos casos, como se reportó en un móvil Xiaomi, estas funciones han aparecido sin previo aviso. A medida que Google extienda la función, deberías ver una opción dentro de la app de Gemini o el asistente de Google para permitir el uso de cámara o visualización de pantalla.

Como siempre, la activación está sujeta a permisos explícitos del usuario, lo que significa que nada se activa sin que tú lo autorices. Google ha sido cuidadoso en este punto para evitar polémicas sobre privacidad.

¿Y qué pasa con la competencia?

Mientras Gemini avanza con estas funciones prácticas, el resto de los grandes jugadores en asistentes virtuales parecen ir a otro ritmo:

Amazon aún no ha lanzado públicamente su esperado Alexa Plus, aunque promete capacidades similares.
Apple sigue postergando el rediseño de Siri con inteligencia contextual.
Samsung mantiene a Bixby, pero ya ha adoptado a Gemini como asistente por defecto en varios de sus modelos.

En WWWhatsnew creemos que esta ventaja temporal de Google no es menor. La integración de IA con visión real es algo que cambia radicalmente cómo interactuamos con los dispositivos. No se trata solo de responder preguntas, sino de acompañarte en tiempo real, con contexto visual.

¿Qué implicaciones tiene esto para el usuario?

Este tipo de funciones puede parecer, a simple vista, una curiosidad técnica o una demostración futurista. Pero pensemos en usos más comunes y realistas:

Estás cocinando y no sabes si la carne está bien cocida: apuntas con la cámara, Gemini te ayuda a decidir.
Ves un mensaje sospechoso en pantalla: Gemini te advierte sobre posible phishing.
Quieres combinar ropa: le muestras tu outfit y te sugiere opciones complementarias.

Poco a poco, pasamos de comandos de voz genéricos (“¿Qué tiempo hace?”) a interacciones muy personalizadas y visuales. Como si tu móvil tuviera ojos y criterio.

¿Qué pasa con la privacidad?

Un punto clave en todo esto es la confianza del usuario. Si bien la función es opcional y requiere permiso, siempre está la pregunta: ¿qué hace Google con las imágenes o el contenido de pantalla?

Google afirma que los datos analizados por Gemini en estas funciones no se almacenan ni se comparten, y que todo ocurre en tiempo real. Pero el debate ético sobre IA con visión está recién comenzando.

Desde nuestra experiencia en wwwhatsnew.com, consideramos que la transparencia será fundamental para que este tipo de funciones se adopten con confianza. Las herramientas pueden ser útiles, pero deben venir con límites claros y control total por parte del usuario.

Un paso hacia una IA realmente útil

Lo más interesante de esta novedad no es la tecnología en sí, sino su enfoque práctico. Google no está mostrando una IA para “impresionar”, sino para acompañarte y ayudarte en situaciones concretas.

Por ahora, está limitado a ciertos móviles y suscriptores premium. Pero si esta experiencia es bien recibida, no sería raro que veamos estas funciones en versiones gratuitas o integradas con otros servicios de Google, como Maps, YouTube o Chrome.

La inteligencia artificial ya no es un concepto lejano. Ahora te ve, te escucha y te entiende, todo al mismo tiempo.

Fuente: Link