Ronald Palacios Castrillo
Aspectos destacados
- El método MethylBERT basado en transformadores detectó asociaciones entre sitios CpG en 110 000 casos
- Se analizaron los marcadores de metilación de ADN libre de células del epitelio ovárico en 3,3 millones de sitios CpG en 3000 muestras
- El modelo de diagnóstico del epitelio ovárico basado en MethylBERT supera a un modelo basado en LASSO
- El ensayo de diagnóstico del epitelio ovárico se desarrolló mediante PCR digital
Resumen
El cáncer epitelial de ovario (EOC) es el cáncer más mortal en mujeres y tiene un mal pronóstico. La detección temprana es la clave para mejorar la supervivencia (una tasa de supervivencia a 5 años en el estadio I/II es superior al 70 %, en comparación con el 25 % en el estadio III/IV) y se puede lograr a través de marcadores de metilación del ADN libre de células circulante (cfDNA) mediante una biopsia líquida.
=> Recibir por Whatsapp las noticias destacadas
En este estudio, Gen Li,et.al.,[Cell Reports Medicine.Volume 5, Issue 8101666August 20, 2024] primero identificaron los 500 principales marcadores de EOC que diferencian a EOC de controles femeninos sanos a partir de 3,3 millones de sitios CpG de todo el metiloma y los validaron en 1800 muestras de cfDNA independientes.
Luego utilizaron un sistema de transformador de IA entrenado previamente llamado MethylBERT para desarrollar un modelo de diagnóstico de EOC que logra una sensibilidad del 80 % y una especificidad del 95 % en el diagnóstico de EOC en etapa temprana.
A continuación, desarrollaron un ensayo de PCR de gotas digitales simple (ddPCR) que presenta un buen rendimiento, lo que facilita la detección temprana de EOC.
En Detalle
El cáncer de ovario es] una causa importante de muerte por cáncer en mujeres, con una incidencia de 313 000 y más de 200 000 muertes en 2020; entre el 85 % y el 95 % de los cánceres de ovario se originaron en células epiteliales.
Aunque los cánceres de mama y de cuello uterino son más comunes, el cáncer de ovario epitelial (COE) tiene una tasa de supervivencia a 5 años mucho menor después del diagnóstico, lo que hace que el COE sea más letal para las mujeres en comparación con los cánceres de mama y de cuello uterino.
Esta alta mortalidad y baja tasa de supervivencia a 5 años del COE se relacionaron principalmente con un diagnóstico tardío, ya que más del 80 % de las pacientes ya se encontraban en etapas avanzadas cuando se las diagnosticó.
Según los datos actuales, si el COE se diagnosticó en la etapa I, su tasa de supervivencia a 5 años sería de alrededor del 90 %; esto disminuye rápidamente a alrededor del 20 % si se diagnostica en la etapa posterior III/IV.
En la actualidad, el antígeno 125 del cáncer (CA125) y la ecografía transvaginal son las dos pruebas más utilizadas para la detección del cáncer de ovario epitelial.
La proteína 4 del epidídimo humano (HE4) también ha surgido como un importante biomarcador sérico para el diagnóstico del cáncer de ovario epitelial y está implicada en la detección de la recurrencia.
El uso del CA125 solo para la detección del cáncer de ovario epitelial tiene una baja sensibilidad; por otro lado, aunque la ecografía transvaginal es muy sensible y precisa para la detección del cáncer de ovario epitelial, el uso rutinario de la ecografía para la detección masiva de primera línea del cáncer de ovario epitelial no es clínicamente factible debido a su incomodidad y naturaleza lenta, y la conclusión depende en gran medida de la experiencia del ecografista.
En la práctica, dos grandes estudios clínicos han descubierto que la evaluación anual del CA125 solo, o en combinación con la ecografía transvaginal, no redujo la mortalidad relacionada con el cáncer de ovario epitelial.
Estos hallazgos destacaron la necesidad urgente de una prueba de cáncer de ovario epitelial altamente sensible y específica que sea eficaz para la detección temprana del cáncer de ovario epitelial.
Los ADN circulantes libres de células (cfDNAs) son fragmentos de ácidos nucleicos extracelulares que se encuentran en biopsias líquidas. Cuando los cfDNAs son eliminados por las células tumorales, por ejemplo durante la apoptosis, son potencialmente útiles en el diagnóstico del cáncer porque contienen las mismas alteraciones genéticas y epigenéticas de las células tumorales de las que derivan.
La aplicación del cfDNA en la detección del EOC ha sido demostrada con algunos resultados prometedores en estudios previos; sin embargo, estos estudios estaban limitados por un tamaño de muestra relativamente pequeño y un sesgo hacia el EOC en etapa avanzada.
Por lo tanto, la utilidad de las pruebas de cfDNA para el diagnóstico del EOC temprano no estaba bien caracterizada. Otra limitación es que los cfDNAs estaban fragmentados y se degradaban rápidamente; por lo tanto, solo una pequeña parte de ellos podía dar un número de copias lo suficientemente alto (>10) para el análisis por secuenciación. A su vez, el número de marcadores potenciales encontrados en el cfDNA era mucho menor que el de las muestras de tejido o células.
Al analizar el cfDNA de muestras de cáncer y sanas, se podrían identificar diferencias en sus patrones genéticos o epigenéticos y utilizarlos como marcadores para construir un modelo de diagnóstico que distinga el cáncer de las muestras sanas.
Como estrategia clásica de construcción de modelos, la reducción de dimensionalidad basada en el operador de selección y contracción mínima absoluta (LASSO) seguida de una regresión logística para la clasificación binaria fue ampliamente adoptada en estudios anteriores.
Sin embargo, dicho enfoque estaba limitado por la cantidad de biomarcadores que se podían incluir para el modelado debido a las restricciones en los eventos por variable (EPV), una relación entre los números de características y el tamaño de la muestra.
Por ejemplo, un modelo de análisis de regresión logística p generalmente adoptó >10 EPV para una buena condición, lo que significa que, para que cada marcador se incluya en la selección del modelo, debe examinarse en al menos 10 muestras.
Esto limitó significativamente la cantidad de marcadores candidatos que se pueden considerar para la construcción del modelo.
Por lo tanto, un método que sea capaz de predecir patrones genéticos o epigenéticos no examinados a partir de marcadores examinados sin estar limitado por el número de marcadores de entrada sería ideal para construir modelos de diagnóstico basados en cfDNA.
El trabajo revolucionario reciente sobre el procesamiento de datos del transcriptoma de una sola célula ha empleado una tecnología de aprendizaje profundo de última generación llamada transformer, cuya idea es entrenar previamente a la IA para que aprenda conjuntos de datos generales a gran escala y luego afinar el conocimiento aprendido hacia una amplia gama de tareas posteriores con datos limitados específicos de la tarea.
Estos trabajos nos inspiraron ya que una predicción a gran escala en entornos con datos limitados también es una necesidad en el estudio de cfDNA, y la incorporación de tecnología de aprendizaje profundo en el diagnóstico de cáncer basado en cfDNA no solo puede expandir los datos de metilación de cfDNA limitados a un patrón de metilación a mayor escala, sino que también permite incluir más marcadores en la construcción de un modelo de diagnóstico de cáncer.
En este artículo, Gen Li,et.al.,[Cell Reports Medicine.Volume 5, Issue 8101666August 20, 2024] examinaron más de 3,3 millones de sitios CpG en más de 420 muestras agrupadas de cfDNA de mujeres sanas y de EOC, y validaron 493 marcadores de metilación más significativos en 754 EOC (205 EOC tempranas) y 1118 muestras individuales de cfDNA de mujeres sanas.
En la siguiente construcción del modelo de diagnóstico, no solo emplearon el enfoque de regresión logística LASSO convencional, sino que también entrenaron previamente un transformador de metilación llamado MethylBERT transfiriendo etiquetas de un conjunto de datos etiquetados a uno no etiquetado en más de 110 000 datos de metilación de cáncer y luego aplicaron este transformador para construir un modelo de diagnóstico basado en aprendizaje profundo.
Al final de este trabajo, seleccionaron el marcador más significativo como objetivo y adaptaron este ensayo de detección de metilación en una plataforma de PCR digital (ddPCR) de prueba rápida y de bajo costo y validaron su utilidad en la detección temprana de EOC.
En este estudio, Gen Li,et.al.,[Cell Reports Medicine.Volume 5, Issue 8101666August 20, 2024] utilizó muestras de cfDNA como sujetos para un cribado primario de marcadores de metilación en EOC.
Los estudios previos de diagnóstico de cáncer basados en la metilación de cfDNA emplearon comúnmente tejidos o líneas celulares para un cribado de marcadores de primera etapa, pero, dado que el patrón de metilación en tejidos o líneas celulares era diferente al del cfDNA, el cribado directo en muestras de cfDNA podría apuntar a los marcadores de metilación de cfDNA con mayor precisión. Además, el uso de un kit de estudio de 3,3 millones de CpG reveló más marcadores potenciales que el ensayo de 450K u 850K.
El marcador más eficiente identificado por este estudio, OV1, por ejemplo, residía en una región no genética y no reguladora; dichas regiones no estaban cubiertas por la mayoría del ensayo de cribado de metilación.
Además, se adoptó el concepto de transformador y entrenaron un transformador de metilación, el MethylBERT, a partir de datos de metilación de 110.000 cánceres. Utilizando este MethylBERT en los datos de secuenciación dirigidos a marcadores de muestras individuales de cfDNA, construyeron{ un modelo de diagnóstico de EOC que superó al modelo de regresión logística LASSO convencional tanto en sensibilidad como en especificidad en un 6% y un 5%, respectivamente.
Por último, desarrollaron-= un método de detección de EOC rápido y rentable que combinó la prueba CA125 y el ensayo ddPCR de OV1 y logró una sensibilidad >70% en la detección temprana de EOC mientras que la especificidad fue tan alta como 88%.
La carga mundial de cáncer radica principalmente en la detección tardía. Esto es particularmente cierto para EOC donde la tasa de mortalidad es alta cuando se detecta en las etapas más tardías. La reducción de la carga de mortalidad en pacientes con EOC depende en gran medida de la detección temprana.
El análisis genético y epigenético del cfDNA obtenido a partir de biopsias líquidas es un enfoque prometedor para lograr información diagnóstica a partir de solo una muestra de sangre. Las células tumorales pueden desprenderse de ADN libre circulante (ctDNA) y, lo que es más importante, conservan las mismas alteraciones en el número de copias, mutaciones y marcadores epigenéticos.
Por lo tanto, el análisis genético de estos cfDNA podría detectar cambios epigenéticos tempranos correlacionados con la transformación maligna. En comparación con los enfoques invasivos como la ecografía transvaginal, la colonoscopia, la gastroscopia y los exámenes histológicos basados en tejidos, un ensayo de diagnóstico basado en cfDNA aprovecha las ventajas de ser fácil de realizar, rentable y menos dañino para los pacientes, lo que lo hace más adecuado como estrategia de detección del cáncer de primera línea y regular.
Se han informado resultados prometedores para el uso de cfDNA en el diagnóstico de diferentes cánceres. Este estudio proporcionó otro ejemplo de la utilidad del cfDNA en el diagnóstico del cáncer.
El modelo de diagnóstico MethylBERT-EOC logró una sensibilidad cercana al 90% en el diagnóstico de EOC, con una mejora particular en el diagnóstico temprano de EOC, donde arrojó una sensibilidad del 80%, que fue un 30%–40% más alta que la del ensayo CA125, o un 13% más alta que la del modelo convencional.
Aunque la mejora en la detección de EOC avanzado por el modelo MethylBERT-EOC no fue tan significativa como la mejora en la detección temprana de EOC, ya que la tasa de supervivencia a 5 años de EOC temprano fue superior al 70%, en comparación con la tasa de supervivencia a 5 años estimada del 40% y 20% de los estadios III y IV, respectivamente, una tasa de detección temprana de EOC más alta sería más significativa clínicamente.
El biomarcador tradicional CA125 es un indicador eficaz del cáncer de ovario epitelial; nuestras cohortes individuales y de ddPCR revelaron su sensibilidad de más del 50% en el cáncer de ovario epitelial en todas las etapas y casi el 40% en la detección temprana del cáncer de ovario.
Un ensayo clínico con más de 200.000 participantes ha demostrado que la medición anual del CA125 aumentó la incidencia temprana del cáncer de ovario en un 39,2% y disminuyó la incidencia avanzada del cáncer de ovario en un 10,2%.= Cabe señalar que es difícil evaluar con precisión la sensibilidad del CA125.
En estudios retrospectivos, se diagnostica a un gran número de sujetos con cáncer de ovario debido a un valor alto o elevado del CA125, lo que da como resultado una muestra sesgada de cohortes de cáncer de ovario con un valor más alto del CA125.
En los estudios prospectivos, por otro lado, es difícil determinar si los resultados negativos del CA125 son verdaderos negativos o falsos negativos, ya que no se pudo obtener una confirmación histológica de los sujetos negativos.
Como alternativa, los investigadores han reclutado a mujeres con masa pélvica o anexial que estaban programadas para su extirpación quirúrgica para un estudio prospectivo, donde el examen histológico de toda la masa extirpada mostró CA125 con sensibilidades del 79% al 91% sobre especificidades del 59% al 79%, pero en estos estudios no se abordó si los sujetos fueron preseleccionados por el examen de CA125. Skates et al. realizaron una estimación prospectiva más rigurosa de la sensibilidad de CA125 en 3992 mujeres utilizando tanto el valor de CA125 como el de riesgo de cáncer de ovario (ROCA), un algoritmo de OC personalizado basado en el cambio de CA125 entre mediciones longitudinales, para la detección de OC.
Sus resultados mostraron que el 50% de los OC invasivos (3 en etapa temprana y 3 en etapa avanzada) fueron detectados por ROCA antes de que CA125 excediera 35 U/mL, lo que sugiere que el punto de corte estándar daría menos del 50% de sensibilidad en la detección de OC.
En otro ensayo de detección de OC en 46.237 mujeres en general, se estimó que CA125 solo dio OC con un 41% de sensibilidad (34 en etapa temprana y 36 en etapa avanzada) en el punto de corte de 35 U/mL. Esta sensibilidad es ineficiente para la detección de primera línea en la población general. No es sorprendente que la mortalidad relacionada con EOC no se
redujera significativamente en otro ensayo clínico; por lo tanto, la reducción de la mortalidad requerirá una estrategia de detección más sensible. Mientras tanto, el mismo ensayo también indicó que la TVU anual no es una buena estrategia de detección de primera línea a pesar de su precisión porque dio un peor desempeño que el desempeño de CA125 en la detección temprana de EOC.
Curiosamente, el aumento del 39,2% en la incidencia temprana de EOC por la medición anual de CA125 está cerca de la sensibilidad de CA125 en la detección temprana de EOC en nuestras cohortes individuales y ddPCR (44,2% y 38,7% respectivamente), lo que indica que este aumento de ∼40% en la incidencia temprana de EOC podría provenir de su ∼40% de sensibilidad en la detección temprana de EOC; si es así, CA125 combinado con el modelo de diagnóstico MethylBERT aumentaría la incidencia temprana al 80%.
En general, el modelo de diagnóstico MethylBERT sería un excelente sustituto o complemento para las pruebas de CA125, ya que aumentó la sensibilidad del diagnóstico temprano de EOC a casi el 80%, mientras que la especificidad fue tan cercana como 95.
Tres características definen la prueba de diagnóstico ideal de EOC: alta sensibilidad, alto VPP y bajo FPR. Una prueba diagnóstica de EOC altamente sensible, particularmente en el dominio de la etapa temprana de EOC conducirá a una mejora en la mortalidad por cáncer.
Las simulaciones por computadora han sugerido que mejorar la sensibilidad de detección de EOC, que actualmente se basa en CA125, podría reducir la mortalidad general hasta en un 25%. Una prueba de EOC con alto VPP ayudará a aliviar la ansiedad del paciente mientras espera los resultados confirmatorios de TVU.
Finalmente, una prueba con bajo FPR será un verdadero beneficio para los sistemas de atención médica porque el número de pruebas de TVU innecesarias se mantendrá al mínimo. En este estudio, la sensibilidad, el VPP y el FPR del modelo de diagnóstico MethylBERT-EOC se estimaron en 89,24%, 91,43% y 5,53%, respectivamente, en el conjunto de datos de validación de la cohorte individual que comprendía 251 pacientes con EOC y 374 mujeres sanas, mientras que la sensibilidad aumentó en más del 40% en comparación con CA125; el VPP y el FPR estaban en un nivel aceptable.
Además, la combinación del modelo con CA125 aumentaría aún más la sensibilidad y el VPP a 95,68% y 96,89%, respectivamente, aunque el FPR aumentó un poco, de manera comprometedora, a 6,29%.
Como enfoque convencional para el modelado de clasificación binaria, el método LASSO-logístico fue ampliamente adoptado por estudios previos. Aunque su selección y reducción de variables basadas en el nivel de diferencia confirió al modelo una mejor estabilidad al descartar variables menos representativas, excluyó el potencial para explorar conexiones de características en una dimensionalidad superior.
Las técnicas de redes neuronales basadas en aprendizaje profundo que surgieron recientemente podrían superar este desafío y, por lo tanto, han reemplazado en gran medida el enfoque convencional en estudios biológicos.
MethylBERT es una de esas técnicas; al entrenarlo previamente con conjuntos de datos de metilación a gran escala, se podría generalizar un subconjunto del conocimiento sobre metilación. Los transformadores desarrollados previamente, como GeneFormer19 y scBERT20, utilizaron transcriptomas de células individuales de varias muestras e incorporaron todos los datos disponibles. Esto se debió a que, en el ámbito del entrenamiento de modelos fundamentales, aprovechar una variedad diversa de datos era un paradigma de investigación.
Por lo tanto, en este estudio,se utilizaron los datos de metilación no solo de EOC sino también de todos los cánceres disponibles, para entrenar =MethylBERT. Hay dos ventajas clave para adoptar dicho paradigma.
En primer lugar, las cohortes de todo el cáncer ofrecen un conjunto de datos significativamente mayor en comparación con las cohortes de EOC, que difieren en 1-2 órdenes de magnitud. Esta abundancia de datos facilitó un proceso de entrenamiento más fluido, minimizando la probabilidad de encontrar sobreajuste.
En segundo lugar, el entrenamiento en cohortes de todo el cáncer permitió que el modelo aprendiera asociaciones más generalizadas y estables entre diversos sitios de metilación, mejoró la robustez y la confiabilidad de los resultados. Como resultado, se expandieron 493 sitios de metilación a través de MethylBERT a una salida de características de mayor escala, lo que proporcionó más hiperplanos para distinguir a EOC de mujeres sanas.
Sin embargo, existe una limitación importante de MethylBERT: el preentrenamiento de este modelo solo se aplicó con datos de metilación, y no se utilizaron otros conocimientos biológicos, como las vías de señalización y las relaciones entre metilación y expresión génica, debido a la falta de datos coincidentes con la metilación del ARN.
Dado que la expresión génica y la vía de señalización son efectores posteriores del cambio de metilación, la integración de datos coincidentes de metilación y expresión génica, junto con la incorporación de vías reguladoras conocidas, en trabajos futuros debería mejorar la precisión y generalización de MethylBERT, lo que conduciría a detecciones tempranas de EOC más precisas y generales.
Además, como estudio de prueba de concepto, este trabajo ha demostrado la utilidad de la tecnología de transformadores en la predicción del patrón de metilación.
En la aplicación de la detección de EOC basada en cfDNA, mejoró en gran medida el rendimiento diagnóstico, lo que sugiere que puede no limitarse a facilitar el diagnóstico de EOC sino también de otros cánceres relacionados con la metilación.