El test de Turing y nuestras cambiantes concepciones de la inteligencia

Ronald Palacios Castrillo

“¿Pueden pensar las máquinas?” Así se preguntaba Alan Turing en su artículo de 1950, “Computing Machinery and Intelligence”. Turing rápidamente señaló que, dada la dificultad de definir el pensamiento, la pregunta es “demasiado insignificante como para merecer discusión”.

eju.tv

Como se hace a menudo en los debates filosóficos, he propuesto reemplazarla por una pregunta diferente. Turing imaginó un “juego de imitación”, en el que un juez humano conversa con una computadora y con un humano (un “contraste”), cada uno de los cuales intenta convencer al juez de que es el humano.

Es importante destacar que la computadora, el contraste y el juez no se ven entre sí; se comunican completamente a través de texto. Después de hablar con cada candidato, el juez adivina cuál es el humano real. La nueva pregunta de Turing fue: “¿Existen computadoras digitales imaginables que se desempeñarían bien en el juego de imitación?”.

=> Recibir por Whatsapp las noticias destacadas

Este juego, ahora conocido como el Test de Turing, fue propuesto por Turing para combatir la intuición popular de que las computadoras, en virtud de su naturaleza mecánica, no pueden pensar, ni siquiera en principio.

El argumento de Turing era que si una computadora parece indistinguible de un humano (aparte de su apariencia y otras características físicas), ¿por qué no deberíamos considerarla una entidad pensante? ¿Por qué deberíamos restringir el estatus de “pensante” solo a los humanos (o, más generalmente, a las entidades hechas de células biológicas)? Como lo describió el científico informático Scott Aaronson, la propuesta de Turing es “un alegato contra el chovinismo de la carne”.

Turing ofreció su prueba como un experimento filosófico, no como una forma práctica de medir la inteligencia de una máquina. Sin embargo, la prueba de Turing ha adquirido un estatus icónico en la mente del público como el hito definitivo de la inteligencia artificial (AI), la métrica principal para determinar si la inteligencia artificial general ha llegado. Y ahora, casi 75 años después, los informes sobre AI están llenos de pronunciamientos de que la prueba de Turing finalmente ha sido aprobada por chatbots como ChatGPT de OpenAI y Claude de Anthropic.

El año pasado, el director ejecutivo de OpenAI, Sam Altman, publicó: «Buena señal de la resiliencia y adaptabilidad de las personas frente al cambio tecnológico: la prueba de Turing pasó volando y todos continuaron con sus vidas».

Varios titulares de los medios han hecho afirmaciones similares, como el informe de un periódico que decía que «ChatGPT pasa la famosa ‘prueba de Turing’, lo que sugiere que el robot de AI tiene una inteligencia equivalente a la de un humano».

Las últimas noticias, comentarios e investigaciones, gratis en su bandeja de entrada todos los días ¿Los chatbots modernos realmente han pasado la prueba de Turing? Y si es así, ¿deberíamos otorgarles el estatus de pensantes, como propuso Turing? Sorprendentemente, dada la amplia importancia cultural de la prueba de Turing, hay poco acuerdo en la comunidad de AI sobre los criterios para aprobarla, y muchas dudas sobre si tener habilidades de conversación que puedan engañar a un humano revela algo sobre la inteligencia subyacente de un sistema o su «estatus pensante».

Como no estaba proponiendo una prueba práctica, la descripción que hizo Turing del juego de imitación fue escasa en detalles. ¿Cuánto debería durar la prueba? ¿Qué tipos de preguntas están permitidas? ¿Qué calificaciones necesitan los humanos para actuar como juez o como contrapunto? Turing no especificó esos puntos tan finos.

Sí hizo una predicción específica: “Creo que en unos 50 años será posible programar computadoras… para hacer que jueguen el juego de imitación tan bien que un interrogador promedio no tendrá más del 70 por ciento de posibilidades de “hacer la identificación correcta después de cinco minutos de interrogatorio”. En resumen, en una conversación de cinco minutos, el juez promedio será engañado el 30 por ciento de las veces”.

Algunos han tomado esta predicción casual como el criterio “oficial” para aprobar el Test de Turing. En 2014, la Royal Society de Londres organizó una competencia del Test de Turing con cinco programas de computadora, 30 contrapuntos humanos y 30 jueces.

Los participantes humanos eran un grupo diverso de jóvenes y mayores, hablantes nativos y no nativos de inglés, expertos en informática y no expertos. Cada juez llevó a cabo varias rondas de conversaciones de cinco minutos en paralelo con un par de concursantes (un humano y una máquina), tras lo cual el juez tuvo que adivinar quién era el humano.

Un chatbot llamado «Eugene Goostman», que pretendía ser un adolescente ucraniano, ganó la competencia al engañar a 10 (33,3%) de los jueces. Adoptando el criterio de “30% de probabilidad de engaño después de cinco minutos”, los organizadores proclamaron: “[e]l icónico Test de Turing de 65 años fue aprobado por primera vez por el programa informático Eugene Goostman… Este hito pasará a la historia…”

Los expertos en AI, al leer la transcripción de las conversaciones de Eugene Goostman, se burlaron de la afirmación de que este chatbot poco sofisticado y poco parecido a un humano había pasado el tipo de test de Turing que tenía en mente.

El tiempo de conversación limitado y la experiencia desigual de los jueces hicieron que la prueba fuera una de credulidad humana en lugar de inteligencia de máquina. Los resultados fueron un claro ejemplo del “efecto ELIZA”, llamado así por el chatbot ELIZA de la década de 1960 que, a pesar de su absoluta simplicidad, logró engañar a muchas personas haciéndoles creer que era un psicoterapeuta comprensivo y compasivo, jugando con nuestra tendencia humana a atribuir inteligencia a cualquier entidad que parezca capaz de conversar con nosotros.

Otro concurso de Test de Turing, el Premio Loebner, permitió más tiempo de conversación, incluyó más jueces expertos y requirió un concursante que engañara al menos a la mitad de ellos. En casi 30 años de competiciones anuales, ninguna máquina pasó esta versión de la prueba.

Aunque el artículo original de Turing carecía de detalles sobre cómo debía llevarse a cabo una prueba, estaba claro que el juego de imitación requería tres participantes: una computadora, un compañero humano y un juez humano. Sin embargo, el significado del término «prueba de Turing» en el discurso público ha evolucionado con los años hasta convertirse en algo considerablemente más débil: cualquier interacción entre un humano y una computadora en la que la computadora parezca suficientemente humana.

Por ejemplo, cuando el Washington Post informó en 2022 que «la AI de Google pasó una prueba famosa y demostró cómo la prueba está rota», no se referían a un juego de imitación, sino a la impresión del ingeniero de Google Blake Lemoine de que el chatbot LaMDA de Google era «sensible».

Un comunicado de prensa de 2024 de la Universidad de Stanford proclamó que la investigación de un equipo de Stanford «marca una de las primeras veces que una fuente de inteligencia artificial ha pasado una rigurosa prueba de Turing». Pero en este caso, el llamado Test de Turing consistió en comparar las estadísticas de cómo se comportaba GPT-4 en encuestas psicológicas y juegos interactivos con las de los humanos.

La formulación del equipo de Stanford podría no ser reconocible para Turing: «Decimos que una AI pasa el test de Turing si sus respuestas no se pueden distinguir estadísticamente de las respuestas humanas seleccionadas al azar».

Las afirmaciones más recientes de un chatbot que pasó el Test de Turing involucraron un estudio de 2024 que utilizó una «formulación de dos jugadores» de la prueba: a diferencia del juego de imitación de «tres jugadores» de Turing, en el que un juez interroga tanto a una computadora como a un compañero humano, aquí cada juez interactuaba solo con una computadora o con un humano.

Los investigadores reclutaron a 500 participantes humanos, a cada uno de los cuales se le asignó ser juez o compañero humano. Cada juez jugó una sola ronda de cinco minutos del juego con un compañero, GPT-4 (al que se le habían dado sugerencias escritas por humanos sobre cómo engañar a un juez) o una versión del chatbot ELIZA.

Después de conversar a través de una interfaz web durante cinco minutos, el juez adivinó si su interlocutor era humano o máquina. Los oponentes humanos fueron juzgados como humanos en el 67% de sus rondas; GPT-4 fue juzgado como humano en el 54% de sus rondas, y ELIZA fue juzgado como humano en el 22% de sus rondas.

Los autores definieron «aprobar» como engañar a los jueces más del 50% del tiempo, es decir, más de lo que se lograría adivinando al azar. Según esta definición, GPT-4 aprobó, a pesar de que los oponentes humanos obtuvieron una puntuación más alta.

Sin duda, es preocupante que la mayoría de los jueces humanos hayan sido engañados por el GPT-4 después de una conversación de cinco minutos. El uso de sistemas de AI generativos para hacerse pasar por humanos con el fin de propagar desinformación o llevar a cabo estafas es un peligro real con el que la sociedad debe lidiar. Pero, ¿es cierto que los chatbots actuales han pasado el Test de Turing?

La respuesta es, por supuesto, que depende de qué versión del test se esté hablando. Un juego de imitación de tres jugadores con jueces expertos y un tiempo de conversación más prolongado aún no ha sido aprobado por ninguna máquina (aunque hay planes para realizar una versión ultra estricta del mismo en 2029).

Debido a que su objetivo es engañar a los humanos en lugar de probar la inteligencia de manera más directa, muchos investigadores de AI han descartado durante mucho tiempo el Test de Turing como una distracción, una prueba «no para que la AI la apruebe, sino para que los humanos la suspendan».

Pero la prominencia del test en la cultura popular persiste. Mantener una conversación es una parte importante de cómo cada uno de nosotros evalúa a otros humanos, por lo que es natural suponer que un agente que puede conversar con fluidez debe poseer una inteligencia similar a la humana y otras características mentales como creencias, deseos y un sentido de sí mismo.

Sin embargo, si la historia de la AI nos ha enseñado algo, es que nuestras intuiciones a menudo se equivocan en tales suposiciones.

Hace décadas, muchos expertos destacados en AI creían que crear una máquina que pudiera vencer a los humanos al ajedrez requeriría algo equivalente a la inteligencia humana completa. «Si uno pudiera diseñar una máquina de ajedrez exitosa, parecería haber penetrado en el núcleo del esfuerzo intelectual humano», escribieron los pioneros de la AI Allen Newell y Herbert Simon en 1958, y el científico cognitivo Douglas Hofstadter predijo en 1979 que en el futuro, «puede que haya programas que puedan vencer a cualquiera al ajedrez, pero… serán programas de inteligencia general».

Por supuesto, en las próximas dos décadas, DeepBlue de IBM derrotó al campeón mundial de ajedrez Garry Kasparov utilizando un método de fuerza bruta que está lejos de lo que llamaríamos “inteligencia general”.

De manera similar, el progreso en AI ha demostrado que las tareas que antes se creía que requerían inteligencia general (reconocimiento de voz, traducción de lenguaje natural e incluso conducir) pueden ser realizadas por máquinas que carecen de cualquier comprensión humana.

Es probable que el Test de Turing se convierta en otra víctima más de nuestras cambiantes concepciones de la inteligencia. En 1950, Turing intuyó que la capacidad de mantener una conversación similar a la humana debería ser una prueba firme de “pensamiento” y todo lo que conlleva.

Esa intuición sigue siendo sólida hoy en día. Pero tal vez lo que hemos aprendido de ELIZA y Eugene Goostman, y lo que todavía podemos aprender de ChatGPT y sus similares, es que la capacidad de sonar fluido en lenguaje natural, como jugar al ajedrez, no es una prueba concluyente de inteligencia general.

De hecho, hay evidencia emergente de la neurociencia de que la fluidez del lenguaje está sorprendentemente disociada de otros aspectos de la cognición.

El neurocientífico del MIT Ev Fedorenko y sus colaboradores han demostrado en una serie de experimentos cuidadosos y convincentes que las redes cerebrales que subyacen a lo que ellos llaman “competencia lingüística formal” –las habilidades relacionadas con la producción del lenguaje– están en gran medida separadas de las redes que subyacen al sentido común, el razonamiento y otros aspectos de lo que podríamos llamar “pensamiento”.

Nuestra suposición intuitiva de que el lenguaje fluido es una condición suficiente para la inteligencia general es, afirman estos investigadores, una “falacia”.

En su artículo de 1950, Turing escribió: “Creo que a finales de siglo el uso de las palabras y la opinión educada general habrán cambiado tanto que uno podrá hablar de máquinas que piensan sin esperar ser contradicho”.

Todavía no hemos llegado a ese punto. Queda por ver si la predicción de Turing está simplemente equivocada por unas pocas décadas, o si el verdadero cambio estará en nuestras concepciones de lo que es “pensar” –y en nuestra comprensión de que la inteligencia es más compleja y sutil de lo que Turing, y el resto de nosotros, habíamos apreciado.