Alexander V. Eriksen,et.al.,(NEngl J Med. https://doi.org/10.1056/AIp2300031),evaluaron el desempeño del AI GPT-4 recientemente lanzado en el diagnóstico de desafíos de casos médicos complejos y compararon la tasa de éxito con la de los lectores de revistas médicas. GPT-4 diagnosticó correctamente el 57 % de los casos, superando al 99,98 % de los lectores humanos simulados generados a partir de respuestas en línea. Los autores destacan el potencial de la IA para ser una poderosa herramienta de apoyo para el diagnóstico; sin embargo, se necesitan más mejoras, validación y consideración de consideraciones éticas antes de la implementación clínica.
La combinación de la escasez de médicos y la mayor complejidad en el campo médico, en parte debido a la rápida expansión de las posibilidades de diagnóstico, ya constituye un desafío importante para la entrega oportuna y precisa de diagnósticos.
Dados los cambios demográficos, con una población que envejece, se espera que este desafío de carga de trabajo aumente aún más en los próximos años, destacando la necesidad de nuevos desarrollos tecnológicos. La IA ha existido durante décadas y anteriormente mostró resultados prometedores en campos monomodales de la medicina, como las imágenes médicas.1. El desarrollo continuo de la IA, incluido el modelo de lenguaje grande (LLM) conocido como Transformador Generativo Preentrenado (GPT), ha permitido la investigaciónen áreas nuevas e interesantes, como la generación de resúmenes de alta(2) y cartas clínicas de pacientes. Recientemente, un artículo que explora el potencial de GPT-4 demostró que era capaz de responder correctamente a las preguntas del examen de licencia médica de EE. UU(3). Sin embargo, no se comprende tan bien su rendimiento en casos clínicos de la vida real. Por ejemplo, aún no está claro hasta qué punto GPT-4 puede ayudar en casos clínicos que contienen descripciones de pacientes largas, complicadas y variadas y cómo funciona en estos casos complejos del mundo real en comparación con los humanos.
=> Recibir por Whatsapp las noticias destacadas
Erikssen y colegas, evaluaron el desempeño de GPT-4 en casos médicos de la vida real comparando su desempeño con el de lectores de revistas médicas. Nuestro estudio utilizó desafíos de casos clínicos complejos disponibles con información completa en texto completo publicada en línea entre enero de 2017 y enero de 2023(4).Cada caso presenta un historial médico y una encuesta con seis opciones para el diagnóstico más probable. Para resolver los desafíos del caso, proporcionamos GPT-4 con un caso clínico y rápido . El mensaje indicaba a GPT-4 que resolviera el caso respondiendo una pregunta de opción múltiple seguida del texto completo sin editar el informe del caso clínico. La información de laboratorio contenida en tablas se convirtió a texto plano y se incluyó en el caso. La versión de GPT-4 disponible para nosotros no podía aceptar imágenes como entrada, por lo que agregamos la descripción de la imagen sin editar proporcionada en los casos clínicos al texto del caso. La edición de marzo de 2023 de GPT-4 (determinismo máximo: temp=0) se proporcionó en cada caso cinco veces para evaluar la reproducibilidad en ejecuciones repetidas. Esto también se realizó utilizando la edición actual (septiembre de 2023) de GPT-4 para probar el comportamiento de GPT-4 a lo largo del tiempo. Debido a que los casos aplicados se publicaron en línea de 2017 a 2023 y los datos de capacitación de GPT-4 incluyen material en línea hasta septiembre de 2021, además realizamos un análisis temporal para evaluar el desempeño en los casos antes y después de los datos de capacitación potencialmente disponibles. Para los lectores de revistas médicas, recopilamos el número y la distribución de votos para cada caso. Utilizando estas observaciones, simulamos 10.000 conjuntos de respuestas para todos los casos, lo que dio como resultado una pseudopoblación de 10.000 participantes humanos genéricos. Las respuestas se simularon como variables independientes distribuidas por Bernoulli (respuesta correcta/incorrecta) con distribuciones marginales como se observa entre los lectores de revistas médicas .
Se Identificaron 38 desafíos de casos clínicos y un total de 248.614 respuestas de lectores de revistas médicas en línea(4). Los diagnósticos más comunes entre los desafíos de casos fueron en el campo de las enfermedades infecciosas, con 15 casos (39,5%), seguidos de 5 casos (13,1%). %) en endocrinología y 4 casos (10,5%) en reumatología. Los pacientes representados en los casos clínicos tenían edades comprendidas entre recién nacidos y 89 años (mediana [rango intercuartil], 34 [18 a 57]) y el 37% eran mujeres. Se esperaría que el número de diagnósticos correctos entre los 38 casos ocurridos por casualidad fuera de 6,3 (16,7%) debido a las seis opciones de la encuesta. La edición de marzo de 2023 de GPT-4 diagnosticó correctamente una media de 21,8 casos (57%) con buena reproducibilidad (55,3%, 57,9%, 57,9%, 57,9% y 57,9%), mientras que los lectores de revistas médicas en promedio diagnosticaron correctamente 13,7 casos (36%) . GPT-4 diagnosticó correctamente 15,8 casos (52,7%) de los publicados hasta septiembre de 2021 y 6 casos (75,0%) de los publicados después de septiembre de 2021. Según la simulación, encontramos que GPT-4 tuvo un rendimiento mejor que el 99,98% de la pseudopoblación . La edición de septiembre de 2023 de GPT-4 diagnosticó correctamente 20,4 casos (54%).
Una limitación importante del estudio es el uso de una población mal caracterizada de lectores de revistas humanos con niveles desconocidos de calidad y habilidades médicas. Además, no se puede valorar si las respuestas dadas a los casos clínicos reflejan su máximo esfuerzo. En consecuencia, los resultados pueden representar en el mejor de los casos a favor de GPT-4. La suposición de respuestas independientes sobre los 38 casos de la pseudopoblación es algo poco realista, porque algunos lectores pueden desempeñarse consistentemente de manera diferente a otros y la frecuencia con la que los participantes responden correctamente a los casos podría depender del nivel de conocimientos y habilidades médicas, así como de la distribución de estos. Sin embargo, incluso en el caso extremo de respuestas correctas máximamente correlacionadas entre los lectores de revistas médicas, GPT-4 seguiría funcionando mejor que el 72% de los lectores humanos.
En esta evaluación piloto, se comparó la precisión diagnóstica de GPT-4 en casos de desafío complejos con la de lectores de revistas que respondieron las mismas preguntas en Internet. GPT-4 tuvo un desempeño sorprendentemente bueno al resolver los desafíos de casos complejos e incluso mejor que los lectores de revistas médicas. GPT-4 tuvo una alta reproducibilidad y el análisis temporal sugiere que la precisión que se observó no se debe a que estos casos aparezcan en los datos de entrenamiento del modelo. Sin embargo, el rendimiento pareció cambiar entre las diferentes versiones de GPT-4, y la versión más nueva tuvo un rendimiento ligeramente peor. Aunque demostró resultados prometedores en el estudio, GPT-4 pasó por alto casi uno de cada dos diagnósticos. Además, las opciones de respuesta no existen fuera de los desafíos de los casos. Sin embargo, una carta publicada recientemente informó sobre una investigación que probó el rendimiento de GPT-4 en un conjunto de datos estrechamente relacionados, demostrando capacidades de diagnóstico incluso sin opciones de opción múltiple(5).
Actualmente, GPT-4 no está diseñado específicamente para tareas médicas. Sin embargo, se espera que el progreso en los modelos de IA continúe acelerándose, lo que conducirá a diagnósticos más rápidos y mejores resultados, lo que podría mejorar los resultados y la eficiencia en muchas áreas de la atención médica(1). Si bien se están realizando esfuerzos para desarrollar dichos modelos, los resultados, junto con hallazgos recientes de otros investigadores(5) ,indican que el modelo actual de GPT-4 puede ser prometedor clínicamente en la actualidad. Sin embargo, se necesitan ensayos clínicos adecuados para garantizar que esta tecnología sea segura y eficaz para uso clínico.
Además, mientras que en el estudio GPT-4 funcionó solo con registros escritos, se espera que las futuras herramientas de IA que sean más especializadas incluyan otras fuentes de datos, incluidas imágenes médicas y mediciones numéricas estructuradas, en sus predicciones. Es importante destacar que los modelos futuros deberían incluir datos de capacitación de países en desarrollo para garantizar un beneficio amplio y global de esta tecnología y reducir el potencial de disparidades en la atención médica. La IA basada en LLM podría ser relevante no sólo para entornos hospitalarios, sino también para la detección de primera línea que se realiza en la práctica general o por los propios pacientes. A medida que avanzamos hacia este futuro, también es necesario abordar las implicaciones éticas que rodean la falta de transparencia de modelos comerciales como GPT-4(1), así como las cuestiones regulatorias sobre protección de datos y privacidad. Finalmente, los estudios clínicos que evalúen la precisión, la seguridad y la validez deben preceder a la implementación futura. En este sentido se deben realizar estudios comparativos entre GPT-4 o versiones recientes y la de grupos de médicos altamente calificados y reconocidos por sus conocimientos y habilidades diagnósticas; ese estudio, nos ilustrará que tan bien funciona uno y otro grupo y nos informará la confianza a prestar a GPT-4 u otros aplicaciones de AI en la práctica médica.
Una vez que se hayan abordado estos problemas y la IA mejore, se espera que la sociedad dependa cada vez más de la IA como herramienta para respaldar el proceso de toma de decisiones SIEMPRE (en mi opinión) con supervisión humana, en lugar de como un reemplazo de los médicos(1,3).
Referencias
- Haug CJ, Drazen JM. Inteligencia artificial y aprendizaje automático en medicina clínica, 2023. N Engl J Med 2023;388:1201-1208. DOI: 10.1056/NEJMra2302038.
- Patel SB, Lam K. ChatGPT: ¿el futuro de los resúmenes de alta? Lancet Digit Health 2023;5:e107-e108. DOI: 10.1016/S2589-7500(23)00021-3.
- Lee P, Bubeck S, Petro J. Beneficios, límites y riesgos de GPT-4 como chatbot de IA para medicina. N Engl J Med 2023;388:1233-1239. DOI: 10.1056/NEJMsr2214184.
- Revista de Medicina de Nueva Inglaterra. Desafíos de casos (https://www.nejm.org/case-challenges).
- Kanjee Z, Crowe B, Rodman A. Precisión de un modelo de inteligencia artificial generativa en un desafío de diagnóstico complejo. JAMÁ 2023; 330:78-80. DOI: https://doi.org/10.1001/jama.2023.8288.
