Llama 3.1: O novo LLM de código aberto da Meta

O que é o Llama 3.1?

Arquitetura do modelo

Desempenho da família de modelos LLama 3.1 e comparações com outros modelos

Llama 3.1 405B: Alta capacidade

Llama 3.1 70B: Gama média

Llama 3.1 8B: Ligeiro

Como pode beneficiar dos modelos da família Llama 3.1?

Afinação

Integração num sistema RAG

Geração de dados sintéticos

As conclusões

Em 23 de julho de 2024, a Meta lançou a nova família de modelos de código aberto Llama 3.1, que inclui os modelos versáteis 8B, 70B e Llama 3.1 405B, sendo que o último se destaca como o maior modelo de linguagem grande (LLM) de código aberto até à data.

Poderá estar a perguntar-se o que distingue estes novos modelos dos seus antecessores. Bem, ao aprofundarmos este artigo, descobrirá que o lançamento dos modelos Llama 3.1 constitui um marco significativo na tecnologia de IA. Os modelos recém-lançados oferecem melhorias significativas no processamento de linguagem natural; além disso, introduzem novas funcionalidades e melhorias não encontradas nas versões anteriores. Esta versão promete mudar a forma como utilizamos a IA para tarefas complexas, fornecendo um poderoso conjunto de ferramentas tanto para investigadores como para programadores.

Neste artigo, vamos explorar a família de modelos Llama 3.1, aprofundando a sua arquitetura, as principais melhorias, as utilizações práticas e uma comparação detalhada do seu desempenho.

O que é o Llama 3.1?

O mais recente modelo de linguagem grande da Meta, o Llama 3.1, está a dar passos significativos no panorama da IA, rivalizando com as capacidades de modelos de topo como o Chat GPT-4o da OpenAI e o Claude 3.5 Sonnet da Anthropic.

Embora possa ser considerada uma pequena atualização do anterior modelo Llama 3, a Meta deu mais um passo em frente ao introduzir algumas melhorias importantes na nova família de modelos, oferecendo

Suporte a oito idiomas: Incluindo inglês, alemão, francês, italiano, português, hindi, espanhol e tailandês, expandindo seu alcance para um público global.
‍
128.000 tokens de janela de contexto: Permitindo que os modelos lidem com entradas muito mais longas e mantenham o contexto em conversas ou documentos alargados.
‍
Melhores capacidades de raciocínio: Permitindo que os modelos sejam mais versáteis e capazes de gerir tarefas complexas de forma eficaz.
‍
Segurança rigorosa: Os testes foram implementados para mitigar os riscos, reduzir os enviesamentos e evitar resultados prejudiciais, promovendo uma utilização responsável da IA.

Para além de tudo o que foi referido, a nova família de modelos Llama 3.1 destaca um grande avanço com o seu impressionante modelo de 405 mil milhões de parâmetros. Este número substancial de parâmetros representa um salto significativo no desenvolvimento da IA, melhorando consideravelmente a capacidade do modelo para compreender e gerar texto complexo. O modelo 405B inclui um vasto conjunto de parâmetros, sendo que cada parâmetro se refere aos pesos e às tendências da rede neural que o modelo aprende durante o treino. Isto permite que o modelo capte padrões linguísticos mais complexos, estabelecendo um novo padrão para modelos linguísticos de grande dimensão e demonstrando o potencial futuro da tecnologia de IA. Este modelo de grande escala não só melhora o desempenho numa vasta gama de tarefas, como também alarga os limites do que a IA pode alcançar em termos de geração e compreensão de texto.

Arquitetura do modelo

A Llama 3.1 utiliza a arquitetura de modelo de transformador apenas descodificador, uma pedra angular dos modelos de linguagem modernos de grande dimensão. Esta arquitetura é conhecida pela sua eficiência e eficácia no tratamento de tarefas linguísticas complexas. A utilização de transformadores permite que a Llama 3.1 se destaque na compreensão e geração de texto semelhante ao humano, proporcionando uma vantagem significativa sobre os modelos que utilizam arquitecturas mais antigas, como LSTMs e GRUs.

Além disso, a família de modelos Llama 3.1 utiliza a arquitetura Mixture of Experts (MoE), que melhora a eficiência e a estabilidade do treino. Evitar a arquitetura MoE garante um processo de formação mais consistente e fiável, uma vez que a MoE pode, por vezes, introduzir complexidades que podem afetar a estabilidade e o desempenho do modelo.

__wf_reserved_inherit — Fig. 1. Um diagrama que ilustra a arquitetura do modelo de transformador Llama 3.1.

‍

A arquitetura do modelo Llama 3.1 funciona da seguinte forma:

1. Tokens de texto de entrada: O processo começa com a entrada, que consiste em tokens de texto. Estes tokens são unidades individuais de texto, como palavras ou subpalavras, que o modelo irá processar.

2. Token Embeddings: Os tokens do texto são então convertidos em token embeddings. Os embeddings são representações vectoriais densas dos tokens que captam o seu significado semântico e as suas relações dentro do texto. Esta transformação é crucial, pois permite que o modelo trabalhe com dados numéricos.

3. Mecanismo de auto-atenção: A auto-atenção permite que o modelo pondere a importância dos diferentes tokens na sequência de entrada ao codificar cada token. Este mecanismo ajuda o modelo a compreender o contexto e as relações entre os tokens, independentemente das suas posições na sequência. No mecanismo de auto-atenção, cada marcador na sequência de entrada é representado como um vetor de números. Estes vectores são utilizados para criar três tipos diferentes de representações: consultas, chaves e valores.

O modelo calcula a atenção que cada token deve dar aos outros tokens, comparando os vectores de consulta com os vectores-chave. Esta comparação resulta em pontuações que indicam a relevância de cada token em relação aos outros.

4. Rede de alimentação: Após o processo de auto-atenção, os dados passam por uma rede feedforward. Esta rede é uma rede neural totalmente ligada que aplica transformações não lineares aos dados, ajudando o modelo a reconhecer e a aprender padrões complexos.

5. Camadas repetidas: As camadas de auto-atenção e de rede feedforward são empilhadas várias vezes. Esta aplicação repetida permite que o modelo capte dependências e padrões mais complexos nos dados.

6. Token de texto de saída: Finalmente, os dados processados são utilizados para gerar o token de texto de saída. Este token é a previsão do modelo para a palavra ou subpalavra seguinte na sequência, com base no contexto de entrada.

Desempenho da família de modelos LLama 3.1 e comparações com outros modelos

Os testes de benchmark revelam que a Llama 3.1 não só se mantém à altura destes modelos de última geração, como também os ultrapassa em determinadas tarefas, demonstrando o seu desempenho superior.

Llama 3.1 405B: Alta capacidade

O modelo Llama 3.1 foi submetido a uma avaliação exaustiva em mais de 150 conjuntos de dados de referência, onde foi rigorosamente comparado com outros modelos líderes de linguagem de grande dimensão. O modelo Llama 3.1 405B, reconhecido como o mais capaz da série recém-lançada, foi comparado com titãs do sector, como o GPT-4 da OpenAI e o Claude 3.5 Sonnet. Os resultados destas comparações revelam que a Llama 3.1 demonstra uma vantagem competitiva, mostrando o seu desempenho e capacidades superiores em várias tarefas.

‍

O impressionante número de parâmetros deste modelo e a sua arquitetura avançada permitem-lhe destacar-se na compreensão complexa e na geração de texto, ultrapassando frequentemente os seus concorrentes em testes de referência específicos. Estas avaliações realçam o potencial do Llama 3.1 para estabelecer novos padrões no domínio dos modelos linguísticos de grande dimensão, proporcionando aos investigadores e programadores uma ferramenta poderosa para diversas aplicações.

Llama 3.1 70B: Gama média

Os modelos Llama mais pequenos e mais leves também demonstram um desempenho notável quando comparados com os seus homólogos. O modelo Llama 3.1 70B foi avaliado em comparação com modelos maiores, como o Mistral 8x22B e o GPT-3.5 Turbo. Por exemplo, o modelo Llama 3.1 70B demonstra consistentemente um desempenho superior nos conjuntos de dados de raciocínio, como o conjunto de dados ARC Challenge, e nos conjuntos de dados de codificação, como os conjuntos de dados HumanEval. Estes resultados realçam a versatilidade e a robustez da série Llama 3.1 em diferentes tamanhos de modelos, tornando-a uma ferramenta valiosa para uma vasta gama de aplicações.

Llama 3.1 8B: Ligeiro

Além disso, o modelo Llama 3.1 8B foi comparado com modelos de dimensão semelhante, incluindo o Gemma 2 9B e o Mistral 7B. Estas comparações revelam que o modelo Llama 3.1 8B supera os seus concorrentes em vários conjuntos de dados de referência em diferentes géneros, como o conjunto de dados GPQA para raciocínio e o MBPP EvalPlus para codificação, demonstrando a sua eficiência e capacidade apesar da sua menor contagem de parâmetros.

‍

Como pode beneficiar dos modelos da família Llama 3.1?

O Meta permitiu que os novos modelos fossem aplicados de várias formas práticas e benéficas para os utilizadores:

Afinação

Os utilizadores podem agora afinar os modelos Llama 3.1 mais recentes para casos de utilização específicos. Este processo envolve o treino do modelo em novos dados externos aos quais não estava anteriormente exposto, melhorando assim o seu desempenho e adaptabilidade para aplicações específicas. O ajuste fino confere ao modelo uma vantagem significativa, permitindo-lhe compreender melhor e gerar conteúdos relevantes para domínios ou tarefas específicos.

Integração num sistema RAG

Os modelos Llama 3.1 podem agora ser perfeitamente integrados em sistemas RAG (Retrieval-Augmented Generation). Esta integração permite que o modelo aproveite fontes de dados externas de forma dinâmica, aumentando a sua capacidade de fornecer respostas exactas e contextualmente relevantes. Ao recuperar informações de grandes conjuntos de dados e ao incorporá-las no processo de geração, a Llama 3.1 melhora significativamente o seu desempenho em tarefas de conhecimento intensivo, oferecendo aos utilizadores resultados mais precisos e informados.

Geração de dados sintéticos

Também pode utilizar o modelo de 405 mil milhões de parâmetros para gerar dados sintéticos de alta qualidade, melhorando o desempenho de modelos especializados para casos de utilização específicos. Esta abordagem aproveita as amplas capacidades do Llama 3.1 para produzir dados direcionados e relevantes, melhorando assim a precisão e a eficiência das aplicações de IA personalizadas.

As conclusões

A versão 3.1 do Llama representa um avanço significativo no domínio dos modelos linguísticos de grande dimensão, demonstrando o empenho da Meta no avanço da tecnologia de IA.

Com a sua substancial contagem de parâmetros, formação extensiva em diversos conjuntos de dados e um enfoque em processos de formação robustos e estáveis, a Llama 3.1 estabelece novos padrões de desempenho e capacidade no processamento de linguagem natural. Seja na geração de texto, sumarização ou tarefas de conversação complexas, o Llama 3.1 demonstra uma vantagem competitiva sobre outros modelos líderes. Este modelo não só ultrapassa os limites do que a IA pode alcançar atualmente, como também prepara o terreno para futuras inovações no cenário em constante evolução da inteligência artificial.

Na Ultralytics, dedicamo-nos a ultrapassar os limites da tecnologia de IA. Para explorar nossas soluções de IA de ponta e acompanhar nossas inovações mais recentes, confira nosso repositório do GitHub. Junte-se à nossa vibrante comunidade no Discord e veja como estamos revolucionando setores como carros autônomos e manufatura! 🚀

Conhecer a Llama 3.1: A mais recente família de modelos de código aberto da Meta

O que é o Llama 3.1?

Arquitetura do modelo

Desempenho da família de modelos LLama 3.1 e comparações com outros modelos

Llama 3.1 405B: Alta capacidade

Llama 3.1 70B: Gama média

Llama 3.1 8B: Ligeiro