Google ignora bloqueos web y sigue entrenando su IA con contenido restringido

Google se encuentra nuevamente en el centro de la polémica por su uso de contenidos web para entrenar sus modelos de inteligencia artificial generativa, incluso cuando los propietarios de sitios han pedido explícitamente no participar en este proceso. Lo que parecía una opción para proteger el contenido digital, resulta ser más bien un espejismo, según declaraciones recientes en un juicio federal en Estados Unidos.

La letra pequeña que nadie vio venir

Durante un juicio antimonopolio en Washington, Eli Collins, vicepresidente de DeepMind (la división de IA de Google), reveló un detalle inquietante: si bien los editores pueden optar por no ceder su contenido para el entrenamiento de IA realizado por DeepMind, esta exclusión no aplica a otros departamentos de Google, como el de su motor de búsqueda.

eju.tv

Esto implica que datos rechazados por DeepMind pueden ser perfectamente usados por el equipo de búsqueda de Google para alimentar su sistema de IA, incluyendo su producto Gemini y funciones como AI Overviews. La lógica interna de Google permite estas excepciones bajo el argumento de que «es para mejorar el buscador», un matiz que ha despertado duras críticas.

Un callejón sin salida para los sitios web

Para quienes desean evitar que su contenido sea usado por las IAs de Google, el único camino real es impedir que su página sea indexada en el buscador mediante el archivo robots.txt. Pero este archivo, que antes era suficiente para gestionar el comportamiento de los bots, ahora se ha vuelto insuficiente frente al nuevo enfoque de la compañía.

=> Recibir por Whatsapp las noticias destacadas

El dilema es claro: si un sitio web decide bloquear el acceso del bot de Google, pierde su presencia en el 90 % del tráfico de búsqueda web, lo que es prácticamente un suicidio digital para cualquier medio, tienda o blog que dependa de la visibilidad en línea.

¿Consentimiento o imposición encubierta?

En teoría, el sistema de exclusión mediante robots.txt ofrece a los editores cierto control. En la práctica, la única manera efectiva de proteger el contenido es salir completamente del buscador de Google, algo inviable para la mayoría.

Esto ha llevado a una especie de chantaje implícito: o cedes tu contenido para que sea usado por los algoritmos de IA de Google, o desapareces del mapa digital. Para muchos editores, es una elección imposible.

Datos que hablan por sí solos

Durante el juicio, se presentó un documento interno de Google que revela que la empresa había recolectado 160.000 millones de tokens (unidades mínimas de texto) para entrenar su IA. De esos, supuestamente la mitad fueron descartados por provenir de fuentes que habían optado por no participar. Pero según la nueva declaración, esos datos siguen en uso dentro del ecosistema de Google, solo que no los usa DeepMind directamente.

Este tipo de giros semánticos ha sido criticado por expertos legales como una forma de esquivar el consentimiento real y seguir aprovechando los contenidos sin autorización clara.

La respuesta de Google y el argumento técnico

Google se defiende afirmando que todo esto se basa en cómo funciona el estándar robots.txt, un archivo que indica a los bots qué partes de un sitio pueden o no visitar. La empresa insiste en que ofrece opciones de exclusión, pero omite mencionar que dichas opciones no se aplican de manera uniforme entre sus divisiones.

Este detalle ha sido uno de los puntos más conflictivos en el caso antimonopolio que enfrenta la empresa, donde se le acusa de mantener un control abusivo del mercado de búsquedas y publicidad. La presión regulatoria va en aumento, con propuestas que incluso contemplan la venta forzosa del navegador Chrome o la ruptura de acuerdos predeterminados con fabricantes y servicios.

El caso Chegg y el precedente que puede sentar

Uno de los ejemplos más ilustrativos es el de Chegg, una plataforma educativa que ha demandado a Google por usar su contenido para entrenar IA sin autorización. La empresa alega que Google utiliza su posición dominante para presionar a los sitios web a ceder información gratuita, creando una dinámica donde el consentimiento se vuelve una ilusión.

El caso Chegg podría abrir la puerta a más demandas, y plantea una pregunta fundamental: ¿cómo equilibrar el desarrollo de tecnologías avanzadas con el respeto al trabajo de millones de creadores de contenido?

Este conflicto marca un punto de inflexión. Lo que está en juego no es solo la ética del uso de datos, sino el modelo entero de cómo Internet ha funcionado durante décadas: un pacto tácito donde los motores de búsqueda ofrecen visibilidad a cambio de indexar contenido. Si esa relación se distorsiona para alimentar sistemas de IA, el modelo de la web abierta entra en crisis.

Las regulaciones tendrán que adaptarse, y rápido. Porque si no se dibujan límites claros, cada clic, cada palabra publicada, podría alimentar un sistema de inteligencia artificial sin que el autor lo sepa ni lo permita.

Fuente: Link