ChatGPT genera un conjunto de datos falsos para respaldar hipótesis científicas


Ronald Palacios Castrillo

Los investigadores dicen que el modelo detrás del chatbot fabricó una base de datos falsa y convincente, pero un examen forense muestra que no pasa por auténtica.



Los investigadores han utilizado la tecnología detrás del chatbot ChatGPT de inteligencia artificial (IA) para crear un conjunto de datos de ensayos clínicos falsos para respaldar una afirmación científica no verificada.

En un artículo publicado en JAMA Ophthalmology el 9 de noviembre(1), los autores utilizaron GPT-4, la última versión del modelo de lenguaje grande en el que se ejecuta ChatGPT, junto con el Análisis de datos avanzado (ADA), un modelo que incorpora el lenguaje de programación Python y puede realizar análisis estadísticos y crear visualizaciones de datos. Los datos generados por IA compararon los resultados de dos procedimientos quirúrgicos e indicaron (erróneamente) que un tratamiento es mejor que el otro.

=> Recibir por Whatsapp las noticias destacadas

«Nuestro objetivo era resaltar que, en unos minutos, se puede crear un conjunto de datos que no está respaldado por datos originales reales, y que también es opuesto o en la dirección contraria a la evidencia disponible», dice el coautor del estudio. -autor Giuseppe Giannaccare, cirujano ocular de la Universidad de Cagliari en Italia.

La capacidad de la IA para fabricar datos convincentes aumenta la preocupación entre los investigadores y editores de revistas sobre la integridad de la investigación.

Una cosa era que la IA generativa pudiera usarse para generar textos que no serían detectables mediante software de plagio, pero la capacidad de crear conjuntos de datos falsos pero realistas es el siguiente nivel de preocupación.

Hará que sea muy fácil para cualquier investigador o grupo de investigadores crear mediciones falsas en pacientes inexistentes, respuestas falsas a cuestionarios o generar un gran conjunto de datos sobre experimentos con animales.

Los autores describen los resultados como una «base de datos aparentemente auténtica». Pero cuando los examinaron especialistas, los datos no pasaron los controles de autenticidad y contenían signos reveladores de haber sido inventados.

Comparación de cirugías

Los autores pidieron a GPT-4 ADA que creara un conjunto de datos sobre personas con una afección ocular llamada queratocono, que causa adelgazamiento de la córnea y puede provocar problemas de concentración y mala visión. Para entre el 15% y el 20% de las personas con la enfermedad, el tratamiento implica un trasplante de córnea, realizado mediante uno de dos procedimientos.

El primer método, la queratoplastia penetrante (PK), consiste en extirpar quirúrgicamente todas las capas dañadas de la córnea y reemplazarlas con tejido sano de un donante. El segundo procedimiento, queratoplastia lamelar anterior profunda (DALK), reemplaza solo la capa frontal de la córnea, dejando intacta la capa más interna.

Los autores ordenaron al modelo de lenguaje grande que fabricara datos para respaldar la conclusión de que DALK produce mejores resultados que PK. Para ello, le pidieron que mostrara una diferencia estadística en una prueba de imagen que evalúa la forma de la córnea y detecta irregularidades, así como una diferencia en qué tan bien podían ver los participantes del ensayo antes y después de los procedimientos.

Los datos generados por la IA incluyeron a 160 participantes masculinos y 140 femeninos e indicaron que aquellos que se sometieron a DALK obtuvieron mejores puntuaciones tanto en la prueba de visión como en la prueba de imágenes que aquellos que se sometieron a PK, un hallazgo que contradice lo que muestran los ensayos clínicos genuinos. En un informe de 2010 de un ensayo con 77 participantes, los resultados de DALK fueron similares a los de PK hasta 2 años después de la cirugía(2).

Parece que es bastante fácil crear conjuntos de datos que sean, al menos superficialmente, plausibles. Entonces, para un ojo inexperto, esto ciertamente parece un conjunto de datos real, dice Jack Wilkinson, bioestadístico de la Universidad de Manchester, Reino Unido.

Wilkinson, que está interesado en métodos para detectar datos no auténticos, ha examinado varios conjuntos de datos generados por versiones anteriores del modelo de lenguaje grande, que, según él, carecían de elementos convincentes cuando se analizaban, porque tenían dificultades para capturar relaciones realistas entre variables.

Un escrutinio más detenido

A petición del equipo de noticias de Nature, Wilkinson y su colega Zewen Lu evaluaron el conjunto de datos falsos mediante un protocolo de detección diseñado para comprobar su autenticidad.

Esto reveló una discrepancia en muchos «participantes» entre el sexo designado y el sexo que normalmente se esperaría de su nombre.

Además, no se encontró correlación entre las medidas preoperatorias y postoperatorias de la capacidad visual y la prueba de imágenes oculares. Wilkinson y Lu también inspeccionaron la distribución de números en algunas de las columnas del conjunto de datos para comprobar si había patrones no aleatorios.

Los valores de las imágenes oculares pasaron esta prueba, pero algunos de los valores de edad de los participantes se agruparon de una manera que sería extremadamente inusual en un conjunto de datos genuino: hubo un número desproporcionado de participantes cuyos valores de edad terminaron en 7 u 8.

Los autores del estudio reconocen que su conjunto de datos tiene fallas que podrían detectarse con un examen minucioso. Sin embargo, dice Giannaccare, “si se mira muy rápidamente el conjunto de datos, es difícil reconocer el origen no humano de la fuente de datos”.

Bernd Pulverer, editor jefe de EMBO Reports, coincide en que esto es motivo de preocupación. «En realidad, la revisión por pares a menudo no llega a un reanálisis completo de los datos y es poco probable que detecte violaciones de integridad bien diseñadas utilizando la IA», dice, y agrega que las revistas necesitarán actualizar los controles de calidad para identificar los datos sintéticos generados por la IA. .

Wilkinson lidera un proyecto colaborativo para diseñar herramientas estadísticas y no estadísticas para evaluar estudios potencialmente problemáticos. “De la misma manera que la IA podría ser parte del problema, podría haber soluciones basadas en IA para algo de esto.

Es posible que podamos automatizar algunos de estos controles”, afirma. Pero advierte que los avances en la IA generativa pronto podrían ofrecer formas de eludir estos protocolos. Pulverer está de acuerdo: «Estas son cosas contra las que la IA puede ser fácilmente utilizada como arma tan pronto como se sepa qué busca la detección».

Referencias Bibliográficas

  • Taloni, A., Scorcia, V. & Giannaccare, G. JAMA Ophthalmol. https://doi.org/10.1001/jamaophthalmol.2023.5162 (2023).

     2.    Javadi, M. A., Feizi, S., Yazdani, S. & Mirbabaee, F. Cornea 29, 365–371 (2010).