Llama 3.1: El nuevo LLM de código abierto de Meta

¿Qué es Llama 3.1?

Arquitectura modelo

Rendimiento de la familia de modelos LLama 3.1 y comparaciones con otros modelos

Llama 3.1 405B: Alta capacidad

Llama 3.1 70B: Gama media

Llama 3.1 8B: Ligero

¿Cómo puede beneficiarse de los modelos de la familia Llama 3.1?

Puesta a punto

Integración en un sistema GAR

Generación de datos sintéticos

Conclusiones

El 23 de julio de 2024, Meta lanzó la nueva familia de modelos de código abierto Llama 3.1, que incluye los versátiles modelos 8B, 70B y Llama 3.1 405B, destacando este último como el mayor modelo de gran lenguaje (LLM) de código abierto hasta la fecha.

Quizá se pregunte qué diferencia a estos nuevos modelos de sus predecesores. Pues bien, a medida que profundicemos en este artículo, descubrirá que el lanzamiento de los modelos Llama 3.1 marca un hito importante en la tecnología de IA. Los modelos recién lanzados ofrecen mejoras significativas en el procesamiento del lenguaje natural; además, introducen nuevas funciones y mejoras que no se encontraban en versiones anteriores. Esta versión promete cambiar la forma en que aprovechamos la IA para tareas complejas, proporcionando un potente conjunto de herramientas tanto para investigadores como para desarrolladores.

En este artículo, exploraremos la familia de modelos Llama 3.1, profundizando en su arquitectura, mejoras clave, usos prácticos y una comparación detallada de su rendimiento.

¿Qué es Llama 3.1?

El último gran modelo lingüístico de Meta, Llama 3.1, está avanzando a pasos agigantados en el panorama de la IA, rivalizando con las capacidades de modelos de primer nivel como Chat GPT-4o de OpenAI y Claude 3.5 Sonnet de Anthropic.

Aunque pueda considerarse una actualización menor del anterior modelo Llama 3, Meta ha dado un paso más introduciendo algunas mejoras clave en la nueva familia de modelos, ofreciendo:

Compatible con ocho idiomas: Entre ellos, inglés, alemán, francés, italiano, portugués, hindi, español y tailandés, lo que amplía su alcance a un público mundial.
‍
128.000 fichas de ventana de contexto: Permite a los modelos manejar entradas mucho más largas y mantener el contexto en conversaciones o documentos extensos.
‍
Mejores capacidades de razonamiento: Permitiendo que los modelos sean más versátiles y capaces de gestionar tareas complejas con eficacia.
‍
Seguridad rigurosa: Se han realizado pruebas para mitigar los riesgos, reducir los sesgos y evitar resultados perjudiciales, promoviendo el uso responsable de la IA.

Además de todo lo anterior, la nueva familia de modelos Llama 3.1 destaca un gran avance con su impresionante modelo de 405.000 millones de parámetros. Este importante número de parámetros representa un gran avance en el desarrollo de la inteligencia artificial y mejora enormemente la capacidad del modelo para comprender y generar textos complejos. El modelo 405B incluye una amplia gama de parámetros, cada uno de los cuales hace referencia a los pesos y sesgos de la red neuronal que el modelo aprende durante el entrenamiento. Esto permite al modelo captar patrones lingüísticos más intrincados, estableciendo un nuevo estándar para los grandes modelos lingüísticos y mostrando el potencial futuro de la tecnología de IA. Este modelo a gran escala no sólo mejora el rendimiento en una amplia gama de tareas, sino que también amplía los límites de lo que la IA puede lograr en términos de generación y comprensión de textos.

Arquitectura modelo

Llama 3.1 aprovecha la arquitectura de modelo de transformador sólo descodificador, piedra angular de los grandes modelos lingüísticos modernos. Esta arquitectura es famosa por su eficiencia y eficacia a la hora de gestionar tareas lingüísticas complejas. El uso de transformadores permite a Llama 3.1 sobresalir en la comprensión y generación de texto similar al humano, proporcionando una ventaja significativa sobre los modelos que utilizan arquitecturas más antiguas como LSTMs y GRUs.

Además, la familia de modelos Llama 3.1 utiliza la arquitectura de Mezcla de Expertos (MoE), que mejora la eficacia y la estabilidad del entrenamiento. Evitar la arquitectura MoE garantiza un proceso de entrenamiento más coherente y fiable, ya que en ocasiones MoE puede introducir complejidades que pueden afectar a la estabilidad y el rendimiento del modelo.

__wf_reserved_inherit — Fig. 1. Diagrama que ilustra la arquitectura del modelo de transformador Llama 3.1.

‍

La arquitectura del modelo Llama 3.1 funciona del siguiente modo:

1. Tokens de texto de entrada: El proceso comienza con la entrada, que consiste en tokens de texto. Estos tokens son unidades individuales de texto, como palabras o subpalabras, que el modelo procesará.

2. Incrustación de tokens: Los tokens del texto se convierten en token embeddings. Las incrustaciones son representaciones vectoriales densas de los tokens que capturan su significado semántico y sus relaciones dentro del texto. Esta transformación es crucial, ya que permite al modelo trabajar con datos numéricos.

3. Mecanismo de autoatención: La autoatención permite al modelo sopesar la importancia de los distintos tokens en la secuencia de entrada a la hora de codificar cada token. Este mecanismo ayuda al modelo a comprender el contexto y las relaciones entre los tokens, independientemente de su posición en la secuencia. En el mecanismo de autoatención, cada elemento de la secuencia de entrada se representa como un vector de números. Estos vectores se utilizan para crear tres tipos diferentes de representaciones: consultas, claves y valores.

El modelo calcula cuánta atención debe prestar cada token a los demás comparando los vectores de consulta con los vectores clave. Esta comparación da lugar a puntuaciones que indican la relevancia de cada token en relación con los demás.

4. Red de alimentación: Tras el proceso de autoatención, los datos pasan por una red de alimentación. Esta red es una red neuronal totalmente conectada que aplica transformaciones no lineales a los datos, lo que ayuda al modelo a reconocer y aprender patrones complejos.

5. Capas repetidas: Las capas de autoatención y de red feedforward se apilan varias veces. Esta aplicación repetida permite al modelo captar dependencias y patrones más complejos en los datos.

6. Texto de salida: Por último, los datos procesados se utilizan para generar el token de texto de salida. Este token es la predicción del modelo para la siguiente palabra o subpalabra de la secuencia, basada en el contexto de entrada.

Rendimiento de la familia de modelos LLama 3.1 y comparaciones con otros modelos

Las pruebas comparativas revelan que Llama 3.1 no sólo se mantiene a la altura de estos modelos de última generación, sino que los supera en determinadas tareas, lo que demuestra su rendimiento superior.

Llama 3.1 405B: Alta capacidad

El modelo Llama 3.1 se ha sometido a una evaluación exhaustiva en más de 150 conjuntos de datos de referencia, en los que se ha comparado rigurosamente con otros grandes modelos lingüísticos líderes. El modelo Llama 3.1 405B, reconocido como el más potente de la nueva serie, se ha comparado con titanes del sector como GPT-4 de OpenAI y Sonnet de Claude 3.5. Los resultados de estas comparaciones revelan que Llama 3.1 demuestra una ventaja competitiva, exhibiendo su rendimiento y capacidades superiores en diversas tareas.

‍

El impresionante número de parámetros de este modelo y su avanzada arquitectura le permiten sobresalir en la comprensión compleja y la generación de textos, superando a menudo a sus competidores en pruebas comparativas específicas. Estas evaluaciones ponen de relieve el potencial de Llama 3.1 para establecer nuevos estándares en el campo de los grandes modelos lingüísticos, proporcionando a investigadores y desarrolladores una potente herramienta para diversas aplicaciones.

Llama 3.1 70B: Gama media

Los modelos Llama, más pequeños y ligeros, también demuestran un rendimiento notable en comparación con sus homólogos. El modelo Llama 3.1 70B se ha evaluado frente a modelos más grandes como Mistral 8x22B y GPT-3.5 Turbo. Por ejemplo, el modelo Llama 3.1 70B demuestra sistemáticamente un rendimiento superior en los conjuntos de datos de razonamiento, como el conjunto de datos ARC Challenge, y de codificación, como el conjunto de datos HumanEval. Estos resultados ponen de manifiesto la versatilidad y robustez de la serie Llama 3.1 en distintos tamaños de modelo, lo que la convierte en una valiosa herramienta para una amplia gama de aplicaciones.

Llama 3.1 8B: Ligero

Además, el modelo Llama 3.1 8B se ha comparado con modelos de tamaño similar, como Gemma 2 9B y Mistral 7B. Estas comparaciones revelan que el modelo Llama 3.1 8B supera a sus competidores en varios conjuntos de datos de referencia de distintos géneros, como el conjunto de datos GPQA para razonamiento y el MBPP EvalPlus para codificación, lo que demuestra su eficiencia y capacidad a pesar de su menor número de parámetros.

‍

¿Cómo puede beneficiarse de los modelos de la familia Llama 3.1?

Meta ha permitido aplicar los nuevos modelos de diversas formas prácticas y beneficiosas para los usuarios:

Puesta a punto

Los usuarios ya pueden ajustar los últimos modelos Llama 3.1 para casos de uso específicos. Este proceso consiste en entrenar el modelo con nuevos datos externos a los que antes no estaba expuesto, mejorando así su rendimiento y adaptabilidad a aplicaciones específicas. El ajuste proporciona al modelo una ventaja significativa al permitirle comprender mejor y generar contenidos relevantes para dominios o tareas específicos.

Integración en un sistema GAR

Ahora, los modelos Llama 3.1 pueden integrarse perfectamente en los sistemas de generación mejorada por recuperación (RAG). Esta integración permite al modelo aprovechar dinámicamente fuentes de datos externas, mejorando su capacidad para ofrecer respuestas precisas y contextualmente relevantes. Al recuperar información de grandes conjuntos de datos e incorporarla al proceso de generación, Llama 3.1 mejora notablemente su rendimiento en tareas intensivas en conocimiento, ofreciendo a los usuarios resultados más precisos e informados.

Generación de datos sintéticos

También puede utilizar el modelo de 405.000 millones de parámetros para generar datos sintéticos de alta calidad, mejorando el rendimiento de modelos especializados para casos de uso específicos. Este enfoque aprovecha las amplias capacidades de Llama 3.1 para producir datos específicos y relevantes, mejorando así la precisión y la eficiencia de las aplicaciones de IA a medida.

Conclusiones

El lanzamiento de Llama 3.1 representa un importante salto adelante en el campo de los grandes modelos lingüísticos y pone de manifiesto el compromiso de Meta con el avance de la tecnología de IA.

Gracias a su gran número de parámetros, a su amplia formación en diversos conjuntos de datos y a su enfoque en procesos de formación robustos y estables, Llama 3.1 establece nuevos puntos de referencia en cuanto a rendimiento y capacidad en el procesamiento del lenguaje natural. Ya sea en la generación de textos, en el resumen o en tareas conversacionales complejas, Llama 3.1 demuestra una ventaja competitiva sobre otros modelos punteros. Este modelo no sólo amplía los límites de lo que la IA puede lograr hoy en día, sino que también sienta las bases para futuras innovaciones en el panorama en constante evolución de la inteligencia artificial.

En Ultralytics, nos dedicamos a ampliar los límites de la tecnología de IA. Para explorar nuestras soluciones de IA de vanguardia y mantenerse al día de nuestras últimas innovaciones, consulte nuestro repositorio de GitHub. Únete a nuestra vibrante comunidad en Discord y descubre cómo estamos revolucionando sectores como el de los coches autónomos y la fabricación. 🚀

Conociendo Llama 3.1: La última familia de modelos de código abierto de Meta

¿Qué es Llama 3.1?

Arquitectura modelo

Rendimiento de la familia de modelos LLama 3.1 y comparaciones con otros modelos

Llama 3.1 405B: Alta capacidad

Llama 3.1 70B: Gama media

Llama 3.1 8B: Ligero