Los cambios de un solo aminoácido en las proteínas a veces tienen poco efecto, pero a menudo pueden provocar problemas en el plegamiento, la actividad o la estabilidad de las proteínas. Solo se ha investigado experimentalmente una pequeña fracción de variantes, pero existen grandes cantidades de datos de secuencias biológicas que son adecuados para su uso como datos de entrenamiento para enfoques de aprendizaje automático. Cheng et al.(SCIENCE.19 Sep 2023.Vol 381, Issue 6664.DOI: 10.1126/science.adg7492) desarrolló AlphaMissense, un modelo de aprendizaje profundo que se basa en la herramienta de predicción de la estructura de proteínas AlphaF. El modelo se entrena con datos de frecuencia de población y utiliza secuencia y contexto estructural previsto, todo lo cual contribuye a su rendimiento. Los autores evaluaron el modelo frente a métodos relacionados utilizando bases de datos clínicas no incluidas en la capacitación y demostraron una concordancia con ensayos multiplexados de efecto variante. Las predicciones para todas las sustituciones de aminoácidos individuales en el proteoma humano se proporcionan como recurso comunitario.
INTRODUCCIÓN
La secuenciación del genoma ha revelado una amplia variación genética en las poblaciones humanas. Las variantes sin sentido son cambios genéticos que afectan la secuencia de aminoácidos en las proteínas. Las variantes sin sentido patógenas alteran la función de las proteínas y reducen la salud del organismo, mientras que las variantes sin sentido benignas tienen un efecto limitado.
MOTIVO FUNDAMENTAL
Clasificar estas variantes es un desafío importante en la genética humana actual. De las más de 4 millones de variantes sin sentido observadas, solo alrededor del 2% se ha categorizado clínicamente como dañino o inofensivo, mientras que la mayoría tiene un impacto clínico desconocido. Esto dificulta el diagnóstico de enfermedades raras y la creación de tratamientos dirigidos a causas genéticas subyacentes. Los enfoques de aprendizaje automático pueden ayudar a cerrar esta brecha interpretando las variantes mediante la detección de patrones en los datos biológicos y prediciendo la patogenicidad de variantes no clasificadas. Concretamente, AlphaFold, que predice con precisión la estructura de las proteínas a partir de sus secuencias, se puede utilizar como base para predecir la patogenicidad de variantes en las proteínas.
=> Recibir por Whatsapp las noticias destacadas
RESULTADOS
Cheng y colaboradores han desarrollado AlphaMissense aprovechando avances en varias áreas: (i) utilizando el modelado de lenguaje no supervisado para aprender cómo los aminoácidos se distribuyen según el contexto de la secuencia; (ii) incorporando información estructural utilizando un sistema basado en AlphaFold; y (iii) ajustando las etiquetas débiles utilizando datos de frecuencia poblacional, evitando así sesgos en las anotaciones hechas por humanos. AlphaMissense ha logrado predicciones avanzadas sobre la patogenicidad de las variantes sin sentido en anotaciones clínicas, variantes de enfermedades de novo y resultados de ensayos experimentales sin entrenamiento explícito en dichos datos. Como un recurso para la comunidad científica, los investigadores han proporcionado una base de datos con predicciones para todas las posibles sustituciones de aminoácidos individuales en el proteoma humano. Se han clasificado el 32% de todas las variantes sin sentido como probablemente patógenas y el 57% como probablemente benignas, utilizando un umbral que ofrece una precisión del 90% en el conjunto de datos de ClinVar. Esto proporciona predicciones confiables para la mayoría de las variantes sin sentido en humanos.
También han demostrado cómo este recurso puede acelerar la investigación en varios campos. Los biólogos moleculares pueden usar la base de datos como punto de partida para diseñar y entender experimentos relacionados con las sustituciones de aminoácidos en el proteoma humano. Los genetistas humanos pueden combinar las predicciones de AlphaMissense a nivel genético con enfoques basados en cohortes de población para evaluar la importancia funcional de los genes, especialmente en genes humanos más cortos donde los enfoques basados en cohortes pueden carecer de poder estadístico. Finalmente, los médicos pueden beneficiarse al priorizar variantes de novo para el diagnóstico de enfermedades raras, aumentando la cobertura de variantes patógenas identificadas de manera confiable, y las predicciones de AlphaMissense pueden contribuir a estudios sobre rasgos genéticos complejos que utilizan anotaciones de variantes raras y probablemente dañinas.
CONCLUSIÓN
Las predicciones de AlphaMissense pueden arrojar luz sobre los efectos moleculares de las variantes en la función de las proteínas, ayudar en la identificación de mutaciones sin sentido patógenas y genes causantes de enfermedades previamente desconocidos, y mejorar el diagnóstico de enfermedades genéticas raras. AlphaMissense también promoverá el desarrollo de predictores especializados de efectos de variantes de proteínas a partir de modelos de predicción de estructuras.
Predicción de patogenicidad de AlphaMissense.
AlphaMissense toma como entrada una variante sin sentido y predice su patogenicidad. Ajustamos AlphaFold en datos de frecuencia de variantes de poblaciones humanas y primates y calibramos la confianza en variantes de enfermedades conocidas. AlphaMissense predice la probabilidad de que una variante sin sentido sea patógena y la clasifica como probablemente benigna, probablemente patógena o incierta. Proporcionamos predicciones para todas las posibles variantes humanas sin sentido como recurso para la comunidad.
Ronald Palacios Castrillo