Los ‘modelos transformer’, desarrollados en su momento por la división de investigación de Google, han sido la arquitectura clave en el ámbito de la inteligencia artificial en los últimos años en múltiples campos, desde la generación de texto (todos los chatbots actuales se basan en ellos) hasta el análisis de imágenes.
Sin embargo, su desempeño se ve limitado cuando se trata de manejar contextos de larga duración. En respuesta a este desafío, Google ha vuelto a innovar presentando un ‘paper’ académico que detalla las características de una nueva arquitectura de IA (denominada ‘titans’) que la forma en que los modelos de IA gestionan la memoria y procesan información en contextos extremadamente largos.
=> Recibir por Whatsapp las noticias destacadas
Esta investigación promete redefinir los límites de lo que las máquinas serían capaces de aprender y recordar, marcando un nuevo hito en la evolución de los sistemas de aprendizaje profundo.
El problema de los ‘transformers’
Los Transformers enfrentan una limitación inherente: su capacidad para manejar ventanas contextuales largas está restringida por el coste exponencial de la memoria. Esto dificulta tareas como el razonamiento en contextos extensos (como cuando tienen que tener en cuenta el contenido completo de documentos extensos), la síntesis de datos históricos y aplicaciones que requieren una memoria más robusta, como el modelado genómico o el análisis de series temporales.
¿Qué aporta esta nueva tecnología?
Titans aborda esta limitación de su predecesor al incorporar un módulo de memoria neuronal de largo plazo que permite al modelo aprender a memorizar durante la prueba y combinar eficientemente información reciente con datos históricos.
Dicho módulo combina tres tipos de memoria inspirados en el funcionamiento del cerebro humano:
- Memoria a corto plazo: Utiliza atención para procesar información inmediata de manera precisa.
- Memoria a largo plazo: Inspirada en los sistemas de memoria humana, este módulo aprende a almacenar abstracciones de datos pasados, utilizando mecanismos como la sorpresa para determinar qué información debe retenerse.
- Memoria persistente: Un conjunto de parámetros independientes de los datos, diseñado para encapsular conocimientos específicos de tareas.
La importancia de este avance
Para ‘adaptarse’ durante la inferencia, los modelos basados en esta arquitectura utilizan un mecanismo basado en el concepto de «sorpresa», que prioriza qué memorias conservar o desechar según la relevancia de los datos entrantes. Este método de «olvido adaptativo» asegura una eficiencia óptima y una capacidad de memoria más inteligente.
Además, el funcionamiento de su memoria permite al mecanismo de atención decidir cuándo usar ésta y cuándo enfocarse en el contexto inmediato.
La innovación clave: al integrar una memoria de largo plazo que aprende de manera activa durante la prueba, la arquitectura emula un proceso cognitivo humano fundamental… la capacidad de recordar y olvidar selectivamente.
Esto no solo abre nuevas posibilidades en áreas como la educación automatizada y el diseño de asistentes virtuales más inteligentes, sino que también sienta las bases para sistemas de IA que puedan adaptarse a entornos cambiantes y gestionar conocimientos de manera sostenible.
Resultados prometedores
En una serie de pruebas rigurosas, ‘titans’ demostró ser más eficaz que los transformers tradicionales y modelos recurrentes modernos en tareas como modelado de lenguaje, razonamiento de sentido común, y análisis de series temporales.
En un experimento de ‘aguja en un pajar’, donde el modelo debe encontrar información relevante en textos largos, ‘titans’ superó a modelos como GPT-4 y LlaMa en eficiencia y precisión.
¿Veredicto?
Si bien es temprano para declarar a ‘titans’ como el sucesor definitivo de los ‘transformers’, sus innovaciones en memoria y adaptabilidad marcan un hito en la evolución de la inteligencia artificial.
A medida que más investigadores implementen y optimicen este enfoque, es posible que estemos presenciando el inicio de una nueva era en la IA, donde los modelos no solo procesan información, sino que también la recuerdan y aprenden de ella.
Por otra parte, aunque Titans representa un avance monumental, también pone sobre la mesa algunos problemas significativos. Por ejemplo: su entrenamiento y optimización requerirán recursos computacionales avanzados, y la complejidad de su diseño podría dificultar su adopción generalizada en aplicaciones con menos recursos. Todo ello podría no hacer sino agravar la actual problemática naciente de divergencia entre IAs para ricos y pobres.
Imagen |
En Genbeta | Debemos pensar seriamente en poder ‘desconectar’ la IA cuando llegue a este punto, según el ex CEO de Google
Fuente: Link