En el ámbito de la inteligencia artificial de código abierto, ha surgido un nuevo competidor que promete revolucionar el panorama de los modelos de lenguaje de gran escala. Se trata de Falcon, desarrollado por el Instituto de Innovación Tecnológica (TII) en Abu Dhabi, Emiratos Árabes Unidos. Con su rendimiento superior y una licencia modificada de Apache que permite su ajuste fino y uso comercial, Falcon se posiciona como el campeón en esta nueva era de la IA de código abierto.
Un rendimiento sobresaliente en comparación con su competencia
Falcon, en sus tres variantes: 1B, 7B y 40B, ha superado en rendimiento a su predecesor, LLaMA de Meta. Según el Instituto, FalconLM es el modelo de lenguaje de código abierto más potente hasta la fecha. Destaca especialmente la variante Falcon 40B, con 40 mil millones de parámetros, aunque sea relativamente más pequeña que LLaMA, que cuenta con 65 mil millones de parámetros. Faisal Al Bannai, secretario general del Consejo de Investigación de Tecnología Avanzada (ATRC), afirma que el lanzamiento de Falcon supondrá una interrupción en el acceso a los modelos de lenguaje de gran escala y permitirá a investigadores y emprendedores desarrollar casos de uso más innovadores.
Encabezando las listas de rendimiento
En la tabla de clasificación de los modelos de lenguaje de código abierto en Hugging Face, dos variantes de FalconLM, Falcon 40B Instruct y Falcon 40B, lideran el ranking, con LLaMA de Meta en tercer lugar. Hugging Face evalúa los modelos en función de cuatro benchmarks populares: AI2 Reasoning Challenge, HellaSwag, MMLU y TruthfulQA.
Entrenamiento exhaustivo y enfoque en la calidad de los datos
Aunque aún no se ha publicado el artículo científico sobre Falcon, se sabe que el modelo Falcon 40B ha sido entrenado de manera exhaustiva utilizando un enorme conjunto de datos compuesto por 1 billón de tokens provenientes del dataset «refined-web». Este dataset se sometió a un proceso de filtrado y deduplicación meticuloso para garantizar su calidad y relevancia. Es importante destacar que los modelos de lenguaje son sensibles a la calidad de los datos de entrenamiento, por lo que se ha dedicado un esfuerzo considerable a construir una tubería de datos capaz de procesar eficientemente decenas de miles de núcleos de CPU. La tubería fue diseñada para extraer contenido de primera calidad de la web, incorporando técnicas exhaustivas de filtrado y deduplicación.
=> Recibir por Whatsapp las noticias destacadas
Capacidades multilingües y licencia amigable para uso comercial
Los modelos Falcon también tienen capacidades multilingües. Además del inglés, entienden alemán, español y francés, y cuentan con capacidades limitadas en otros idiomas europeos como neerlandés, italiano, rumano, portugués, checo, polaco y sueco. Un aspecto destacable de Falcon es su licencia modificada de Apache, que permite el ajuste fino y el uso comercial de los modelos. Esto contrasta con LLaMA, cuyos pesos nunca fueron de código abierto y su uso comercial estaba restringido. Falcon se presenta como el primer modelo de lenguaje de código abierto que va más allá de las limitaciones de investigación.
El impulso de la IA de código abierto y su impacto
La IA de código abierto fomenta la colaboración, la transparencia y la innovación en el campo. Los modelos de código abierto, como Falcon, permiten una mayor colaboración y el intercambio de conocimientos, lo que puede llevar a un progreso e innovación más rápidos. Desde el lanzamiento de LLaMA, hemos presenciado cómo estos modelos han brindado a investigadores y desarrolladores acceso a potentes modelos de lenguaje sin necesidad de invertir en soluciones propietarias o recursos en la nube costosos. LLaMA ha proporcionado una alternativa a los modelos de código cerrado, que algunos expertos han criticado por su falta de transparencia y posibles sesgos.
Fuente: Analytics India Magazine
Fuente: Link