Antes de que se secuenciara el genoma humano, los investigadores apuntaban a que nuestro ADN contiene entre 25.000 y 40.00 genes codificantes o, lo que es lo mismo, genes a partir de los que se pueden obtener proteínas. Incluso algunos apostaban por la posibilidad de que hubiese 100.000 de estos genes.

Sin embargo, con la finalización del Proyecto Genoma Humano, en 2003, la cifra se redujo hasta establecerse entre 20.000 y 25.000.

El conjunto de proteínas resultantes de la traducción de genes codificantes se conoce como proteoma y conocerlo en profundidad es muy importante, ya que puede ayudar a entender las bases bioquímicas de enfermedades tan graves como los trastornos cardiovasculares o el cáncer.

Por eso, la investigación en torno al número de genes codificantes ha seguido en marcha con algunas variaciones a lo largo del tiempo. El giro más radical de los acontecimientos ha tenido lugar recientemente, después de que un equipo internacional de investigadores, liderado por el Centro Nacional de Investigaciones Oncológicas (CNIO), haya comparado las tres bases de datos sobre genes y proteínas más utilizadas. En el estudio han participado también el Centro Nacional de Investigaciones Cardiovasculares (CNIC),el Instituto Wellcome Trust Sanger, de Reino Unido, la Universidad Pompeu Fabra, el Instituto de Tecnología de Massachusetts, de Estados Unidos, y el Centro Nacional de Supercomputación (BSC-CNS).

Una clasificación complicada

Para que un gen pueda clasificarse como codificante deben converger varias características, en ocasiones difíciles de detectar. Esto ha llevado a que las diferentes bases de datos que se han elaborado a lo largo de los años no aporten una misma cifra.

El trabajo de estos científicos, que ha sido publicado recientemente en Nucleic Acid Research, ha consistido en comparar las tres bases de datos tomadas habitualmente como referencia: GENCODE/Ensembl, RefSeq y UniProtKB.

Las dos primeras encierran información sobre los diferentes genes humanos, mientras que la última clasifica directamente las proteínas presentes en el proteoma.

Al comparar los puntos en común de todas ellas se comprobó que en total aparecían 22.210 genes codificantes, de los cuales sólo 19.446 se encontraban en las tres. Esto suponía 2.764 genes que sólo se encontraban clasificados como codificantes en una o en dos de las tres listas.

Por otro lado, comprobaron que todos estos genes, junto a otros 1.470 que sí que se encontraban en las tres, no están evolucionando como se espera que lo hagan los genes codificantes.

Por lo tanto, en total podría haber 4.234 secuencias de ADN de las conocidos como pseudogenes, que no se podrían traducir en ninguna proteína.

Hacia una nueva clasificación

El siguiente paso de estos científicos ha sido revisar estos más de cuatro mil genes, en busca de una nueva clasificación. De momento ya han logrado reclasificar como no codificantes 300 de ellos.

La importancia de este trabajo reside en facilitar una mejor comprensión del proteoma humano y las enfermedades que se asocian con él.

Si el genoma humano contiene menos genes codificantes de los que se creía, muchos trabajos elaborados en base a esta información podrían ser erróneos. Así lo ha afirmado en una nota de prensa David Juan, uno de los participantes de la Universidad Pompeu Fabra:

Sorprendentemente, algunos de estos genes codificantes dudosos han sido bien estudiados y tienen más de 100 publicaciones científicas basadas en la suposición de que el gen codifica una proteína.

Conocer cómo se activan y organizan las proteínas en las células humanas es de gran importancia para la comprensión de múltiples enfermedades y se ha convertido en el objetivo de un gran número de estudios científicos en los últimos años. Sin embargo, antes de construir una casa se debe comprobar que sus cimientos son estables. Vale la pena revisar lo que sabemos de los genes para comprender mejor las proteínas.