El gran desafío conceptual para la biología en la próxima década


Célula - Concepto, tipos, partes y funciones

El nuevo dogma celular a elucidar: cómo fluye la información dentro de la célula en contextos mucho más amplios que la síntesis de proteínas.

Ronald Palacios Castrillo, M.D.,PhD.



Resumen

En este ensayo, presentaré lo que considero un gran desafío conceptual para la biología en la próxima década, inspirado en el dogma central de Crick: comprender el flujo de información en la célula en el sentido más general.

=> Recibir por Whatsapp las noticias destacadas

Texto principal

La biología moderna se ha vuelto tan genocéntrica que hemos olvidado que las unidades reales de función y estructura en un organismo son las células y no los genes.—Sydney Brenner (2002)

Francis Crick ideó el “Dogma Central” al intentar comprender un problema particular: la síntesis de proteínas, y específicamente el flujo de información en la síntesis de proteínas[1].

Este gran avance tuvo lugar durante los primeros días de la revolución de la biología molecular, cuando los biólogos intentaban comprender las moléculas individuales de la célula y los principios por los que se crean.

Hoy, ese programa de descubrimiento de moléculas individuales está completo en muchos sentidos: se han secuenciado los genomas completos de todos los organismos modelo principales, se han descubierto y secuenciado más de 250 millones de genes de un conjunto mucho más grande de organismos, se han determinado experimentalmente las estructuras de 200.000 proteínas derivadas de esos genes y existen predicciones computacionales razonablemente buenas para las estructuras de todas las proteínas restantes.

En este ensayo, plantearé lo que considero un gran desafío conceptual para la biología en la próxima década, inspirado en el Dogma Central de Crick: comprender el flujo de información en la célula en el sentido más general.

Porque, si bien todos los genes y las proteínas han sido de algún modo descifrados, aún no entendemos cómo funcionan juntos para crear la unidad más pequeña e indivisible de la vida: la célula.

Si bien hay muchas preguntas importantes sobre la función y los procesos celulares que deben entenderse, en este ensayo me centraré en las generalizaciones del Dogma Central, es decir, cómo fluye la información dentro de la célula en contextos mucho más amplios que la síntesis de proteínas. Pensemos en esto como el “Dogma Celular”, con ironía. ¿Qué tipos de información nos interesan aquí? Primero, ¿cómo codifica el genoma la información que se convierte en el organismo, en el sentido más general?

Segundo, ¿cómo se comunican las células y cambian de estado e identidad durante el desarrollo? Tercero, ¿cómo las relaciones entre los tipos de células codifican la información histórica a lo largo de escalas de tiempo evolutivas?

Analizaré cada uno de estos temas por separado. Empecemos por el flujo de información en uno de los sistemas modelo más simples de la biología: la bacteria E. coli. Su genoma fue secuenciado hace más de 25 años, pero aún no entendemos cómo se regulan la mayoría de sus genes, lo que deja muchas preguntas abiertas sobre su fisiología general y su historia evolutiva.

Una cosa es tener la secuencia genética y otra muy distinta es entender qué hacen el gen y su producto proteico y cómo se regulan.

Sorprendentemente, sólo se ha caracterizado el 30% de las interacciones reguladoras esperadas entre factores de transcripción y genes en este organismo[2]. De manera similar, más de la mitad de todos los operones del genoma de este organismo carecen de sitios de unión de factores de transcripción anotados[3].

Se conocen los métodos para rectificar este lamentable estado de cosas, y debería ser sólo una cuestión de tiempo y fuerza de voluntad resolverlo. No deberíamos esperar otro cuarto de siglo para creer que hemos “resuelto” el problema de E. coli, incluso en este sentido estrictamente definido.

En el caso de los organismos multicelulares, la situación es mucho peor. A pesar de haber secuenciado cientos de genomas de organismos multicelulares, todavía no tenemos forma de predecir los tipos celulares de un organismo a partir de la secuencia genómica únicamente.

Para mayor claridad, cuando hablo de “tipo celular” me refiero a los estados de vida prolongada de la célula y no a la cuestión más difícil de los estados celulares transitorios, que pueden ser sutiles y cambiar en escalas temporales cortas.

Se trata de una pregunta muy simple y fundamental, y parece probable que la secuencia genómica pueda contener toda la información necesaria para responderla, pero hasta la fecha no es posible.

En su lugar, hemos recurrido a métodos experimentales para responder a la pregunta de qué tipos celulares existen para un organismo, en particular mediante la creación de atlas transcriptómicos unicelulares en los que cada tipo celular está representado por un vector de alta dimensión que nos indica el recuento de mRNA de cada gen expresado en ese tipo celular.

Estos atlas ya existen en forma de borrador para todos los organismos modelo principales: gusanos, moscas, peces, ratones y, por supuesto, humanos, así como varios otros[4].

Estamos en el comienzo mismo de la comprensión de la información contenida en estos atlas, y creo que serán un terreno fértil para responder a muchas preguntas; un ejemplo de ello es la comprensión del papel de varios factores de transcripción en la definición de tipos de células individuales frente al control de procesos celulares ubicuos que se encuentran en todas las células.

Es natural preguntarse si podemos trabajar hacia atrás a partir de la respuesta experimental para resolver la pregunta teórica, es decir, ¿podemos utilizar la caracterización molecular de los transcriptomas de los tipos de células en estos atlas junto con las secuencias del genoma para desarrollar teorías o modelos que predigan el tipo de célula a partir del genoma?

Creo que esto será posible y que tal vez la ruta para hacerlo surja de los asombrosos avances en inteligencia artificial y aprendizaje automático durante la última década. Tal vez algún día una persona pueda darnos una nueva secuencia del genoma de un organismo que nunca ha sido estudiado, y a partir de esa secuencia del genoma solamente y sin ninguna otra información sobre el organismo (pero utilizando nuestro conocimiento de los genomas de otros organismos y sus conjuntos correspondientes de tipos de células), podremos hacer una predicción razonablemente buena de los tipos de células del nuevo organismo.

Es ciertamente posible que la hipótesis aquí sea errónea, que la secuencia del genoma por sí sola no defina los tipos de células, y si este resulta ser el caso, sería un descubrimiento fascinante.

Después de todo, el genoma en sí es una molécula con modificaciones químicas epigenéticas que no se tienen en cuenta en la secuencia del genoma, y ​​la molécula también está empaquetada en cromatina, que tiene sus propias modificaciones químicas y cambia de estado físico selectivamente para hacer que el genoma sea accesible a complejos transcripcionales y demás.

Tal vez haya proteínas o metabolitos que el embrión herede del espermatozoide y el óvulo, y que contengan la información necesaria. Tal vez las distribuciones espaciales de moléculas y células codifiquen la información necesaria para guiar la trayectoria del desarrollo multicelular.

Todos los experimentos de clonación y trasplante de genoma realizados hasta la fecha requieren una célula, un ovocito o un embrión intactos para funcionar, y no creo que exista un solo ejemplo en el que el DNA desnudo y una solución in vitro definida químicamente hayan dado lugar a un organismo vivo.

Por ello, sería muy interesante tener una comprensión precisa de qué información y cuánta está codificada únicamente en la secuencia del genoma y qué se almacena por otros medios químicos en la célula, ya sea mediante la codificación epigenética de la cromatina o a través de otras moléculas biológicas.

Hay otras cuestiones del flujo de información en biología celular que no entendemos pero que tal vez estemos a punto de resolver.

¿Cuál es el origen de la multicelularidad? ¿Cuáles son las relaciones evolutivas entre los tipos de células en los distintos organismos? Como acotación al margen de su artículo sobre el dogma central, Crick predijo una “taxonomía de secuencias de proteínas”, que de hecho se ha cumplido y se ha convertido en una herramienta poderosa para comprender las relaciones evolutivas que trazan la tortuosa historia de la vida en la Tierra.

Entendemos cómo calcular las distancias filogenéticas entre genes, lo que está relacionado con la cuestión de la taxonomía de proteínas que propuso Crick, pero ¿cómo podemos calcular las distancias entre transcriptomas, células y tipos de células? Estas son preguntas importantes que, una vez más, creo que están a nuestro alcance, y me alientan los primeros resultados en la literatura[5].

Comprender las relaciones evolutivas entre los tipos de células es probablemente fundamental para obtener una teoría cuantitativa de la evolución convergente. La mayoría de los ejemplos de evolución convergente son órganos, tejidos u otras estructuras a gran escala, que por supuesto están compuestas de muchos tipos de células[6]. En retrospectiva, parece ridículamente simplista tratar de entender este fenómeno simplemente a través de la lente de los genes individuales. ¿Todas las estructuras convergentes tienen los mismos tipos de células? ¿Esos tipos de células evolucionaron independientemente, o existe una colección de tipos de células ancestrales, similar a los ladrillos de Lego, que pueden reutilizarse para construir una variedad de estructuras diferentes?

Una de las preguntas más importantes del flujo de información dentro y entre las células se relaciona con el desarrollo. ¿Cuáles son las estructuras de linaje, las relaciones y las interacciones entre los tipos de células de un organismo, y cómo se manifiestan y cambian a medida que el organismo progresa desde una sola célula hasta un adulto multicelular maduro?

Una vez más, no parece imposible esperar que estas preguntas puedan responderse mediante predicciones derivadas solo de la secuencia del genoma.

Además, se ha establecido durante más de un siglo que el desarrollo de los organismos tiene una notable plasticidad y resistencia a las perturbaciones.

Se pueden extraer células de un embrión y reorganizarlas o injertar tejidos, y aun así el organismo se adapta a esos cambios y sigue desarrollándose normalmente en muchos casos[7].

Esta estabilidad frente a las perturbaciones revela que hay preguntas fundamentales sobre el flujo de información entre células que aún no han sido respondidas. Gran parte de este flujo de información consiste en la señalización a través de péptidos, receptores, ligandos, metabolitos y similares. Un verdadero dogma celular debería ser capaz de explicar esto.

¿Cuál es el marco teórico para describir un dogma celular? El dogma central de Crick era cualitativo y estaba representado por un esquema de dibujos animados. Más tarde, la gente comenzó a construir modelos matemáticos alrededor de la caricatura para tratar de entender, por ejemplo, la propagación de errores en la transcripción y la traducción.

La teoría de la corrección cinética de Hopfield es un ejemplo de ello[8]. Claude Shannon desarrolló la primera teoría matemática de la información para entender cómo el ruido limitaba la cantidad de información que podía transmitirse en sistemas de comunicación electrónicos como la red telefónica[9].

Su teoría, junto con décadas de investigación posterior de muchas personas, se ha convertido en la base de cómo entendemos y diseñamos todos los aspectos de los sistemas de comunicación, desde la red de telefonía celular hasta Internet[10]. Sería maravilloso si estas ideas precisas pudieran aplicarse al flujo de información en la célula.

Los ejemplos de esto en el contexto de la regulación genética representan un posible punto de partida[11].

Los humanos tenemos miles de tipos de células y decenas de miles de genes. Cada una de nuestras células tiene cientos de miles de transcripciones de mRNA, miles de millones de proteínas y muchas otras moléculas.

Obviamente, sería muy difícil calcular el flujo de información con un lápiz y un papel; realmente necesitamos la ayuda de las computadoras. La revolución actual en inteligencia artificial y aprendizaje automático representa una oportunidad interesante para construir modelos que capturen el flujo de información dentro y entre las células.

Soy muy optimista sobre las posibilidades de obtener más información en este campo, en parte debido al espectacular éxito obtenido con el uso de estos enfoques para comprender la estructura de las proteínas[12,13].

Una forma de pensar en los grandes modelos lingüísticos es que parametrizan una variedad de interés de baja dimensión en el espacio que se está estudiando. En el caso de las proteínas, el espacio son todas las secuencias de proteínas, y la variedad son aquellas secuencias que se pliegan en estructuras compactas.

Los modelos lingüísticos como ESM proporcionan una parametrización de esa variedad[14] y, por lo tanto, permiten predecir estructuras a partir de secuencias y predecir secuencias que generarán una estructura deseada. Es importante recordar que la gran mayoría de las secuencias de proteínas no se pliegan en estructuras compactas y, por lo tanto, el modelo describe un subconjunto muy pequeño (y para esta pregunta el más interesante) de secuencias potenciales.

Para los tipos de células y los estados celulares, podemos utilizar una analogía similar, en el sentido de que si se considera el espacio de todos los estados transcripcionales posibles de una célula (donde cada uno de los miles de genes puede expresarse en niveles arbitrarios), es evidente que solo un pequeño subconjunto de ese espacio representa los estados biológicos reales que pueden alcanzar las células.

¿Se pueden entrenar los modelos lingüísticos en los diversos atlas celulares para aprender la variedad de estados celulares accesibles? ¿Se pueden utilizar estos modelos para enseñarnos el espacio de estados celulares diseñados que se pueden crear mediante métodos de biología sintética?

Es demasiado pronto para saber con certeza cuán útiles serán, pero, una vez más, me siento alentado por los prometedores resultados recientes en la literatura[15,16,17] y por los planes generados por la comunidad en este espacio[18].

Cerraré con una pregunta final: ¿cuál es el papel de la teoría en todo esto? Los artículos de Shannon eran elegantes teoremas matemáticos que ayudaron a proporcionar límites generales a las tasas de transferencia de información.

Hoy, tenemos una oportunidad excepcional de desarrollar teorías que nos ayudarán a comprender los usos y los límites de los grandes modelos de lenguaje y otros enfoques de aprendizaje automático para comprender el flujo de información en las células. Y, a su vez, el uso de dichos modelos debería informar el desarrollo de nuevas teorías en esta área[19].

En ese sentido, los modelos pueden servir como puentes esenciales entre la teoría y el corpus grande y difícil de interpretar de datos brutos de la biología.

Referencias Bibliográficas

  1. Crick, F.H.C.

On protein synthesis

Symp. Soc. Exp. Biol. 1958; 12:138-163

PubMed

Google Scholar

2. Santos-Zavaleta, A. ∙ Salgado, H. ∙ Gama-Castro, S. …

RegulonDB v 10.5: tackling challenges to unify classic and high throughput knowledge of gene regulation in E. coli K-12

Nucleic Acids Res. 2019; 47:D212-D220

Crossref

Scopus (241)PubMedGoogle Scholar

3. Belliveau, N.M. ∙ Barnes, S.L. ∙ Ireland, W.T. …

Systematic approach for dissecting the molecular mechanisms of transcriptional regulation in Bacteria

Proc. Natl. Acad. Sci. USA. 2018; 115:E4796-E4805

Crossref

Scopus (57)PubMedGoogle Scholar

4. Quake, S.R.

A decade of molecular cell atlases

Trends Genet. 2022; 38:805-810

Full Text

Full Text (PDF)Scopus (0)Google Scholar

5. Tarashansky, A.J. ∙ Musser, J.M. ∙ Khariton, M. …

Mapping single-cell atlases throughout Metazoa unravels cell type evolution

Elife. 2021; 10:e66747

Crossref

Scopus (100)PubMedGoogle Scholar

6. Morris, S.C.

Life’s Solution: Inevitable Humans in a Lonely Universe

Cambridge University Press, 2003

Crossref

Scopus (251)Google Scholar

7. Mukherjee, S.

The Song of the Cell: An Exploration of Medicine and the New Human

Simon and Schuster, 2022

Google Scholar

8. Hopfield, J.J.

Kinetic Proofreading: A New Mechanism for Reducing Errors in Biosynthetic Processes Requiring High Specificity

Proc. Natl. Acad. Sci. USA. 1974; 71:4135-4139

Crossref

Scopus (1164)PubMedGoogle Scholar

9. Shannon, C.E.

A Mathematical Theory of Communication

The Bell System Technical Journal. 1948; 27:623-656

Crossref

Google Scholar

10. Cover, T.M. ∙ Thomas, J.A.

Elements of Information Theory

Wiley Series in Telecommunications and Signal Processing, 2006

Google Scholar

11. Phillips, R. ∙ Kondev, J. ∙ Theriot, J. …

Physical Biology of the Cell

Garland Science, 2012

Crossref

Google Scholar

12. Jumper, J. ∙ Evans, R. ∙ Pritzel, A. …

Highly accurate protein structure prediction with AlphaFold

Nature. 2021; 596:583-589

Crossref

Scopus (18551)PubMedGoogle Scholar

13. Lin, Z. ∙ Akin, H. ∙ Rao, R. …

Evolutionary-scale prediction of atomic-level protein structure with a language model

Science. 2023; 379:1123-1130

Crossref

Scopus (880)PubMedGoogle Scholar

14. Rives, A. ∙ Meier, J. ∙ Sercu, T. …

Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences

Proc. Natl. Acad. Sci. USA. 2021; 118, e2016239118

Crossref

Scopus (998)PubMedGoogle Scholar

15. Cui, H. ∙ Wang, C. ∙ Maan, H. …

scGPT: toward building a foundation model for single-cell multi-omics using generative AI

Nat. Methods. 2024; 21:1470-1480

Crossref

Scopus (66)PubMedGoogle Scholar

16. Theodoris, C.V. ∙ Xiao, L. ∙ Chopra, A. …

Transfer learning enables predictions in network biology

Nature. 2023; 618:616-624

Crossref

Scopus (152)PubMedGoogle Scholar

17. Rosen, Y. ∙ Roohani, Y. ∙ Agrawal, A. …, Tabula Sapiens Consortium

Universal Cell Embeddings: A Foundation Model for Cell Biology

bioRxiv. 2023;

Crossref

Scopus (0)Google Scholar

18. Bunne, C. ∙ Roohani, Y. ∙ Rosen, Y. …

How to Build the Virtual Cell with Artificial Intelligence: Priorities and Opportunities

Arxiv. 2024;

https://arxiv.org/abs/2409.11654

Google Scholar

19. Howe, A. ∙ Mani, M.

Dynamical systems theory informed learning of cellular differentiation landscapes

bioRxiv. 2024;


×