Verificação verde
Link copiado para a área de transferência

Conhece a Llama 3.1: A mais recente família de modelos de código aberto da Meta

Explora a nova família de modelos de código aberto Llama 3.1 da Meta, que inclui o versátil 8B, o polivalente 70B e o emblemático 405B, o seu maior e mais avançado modelo até à data.

Em 23 de julho de 2024, a Meta lançou a nova família de modelos de código aberto Llama 3.1, que inclui os modelos versáteis 8B, 70B e 405B, sendo que o último se destaca como o maior modelo de linguagem grande (LLM) de código aberto até à data.

Deves estar a perguntar-te o que distingue estes novos modelos dos seus antecessores. Bem, à medida que nos aprofundamos neste artigo, vais descobrir que o lançamento dos modelos Llama 3.1 representa um marco significativo na tecnologia de IA. Os modelos recém-lançados oferecem melhorias significativas no processamento de linguagem natural; além disso, introduzem novas funcionalidades e melhorias não encontradas nas versões anteriores. Esta versão promete mudar a forma como utilizamos a IA para tarefas complexas, fornecendo um poderoso conjunto de ferramentas para investigadores e programadores.

Neste artigo, vamos explorar a família de modelos Llama 3.1, aprofundando a sua arquitetura, as principais melhorias, as utilizações práticas e uma comparação detalhada do seu desempenho.

O que é o Llama 3.1?

O mais recente Modelo de Linguagem de Grande Dimensão da Meta, o Llama 3.1, está a dar passos significativos no panorama da IA, rivalizando com as capacidades de modelos de topo como o Chat GPT-4o da OpenAI e o Claude 3.5 Sonnet da Anthropic. 

Embora possa ser considerada uma pequena atualização do anterior modelo Llama 3, a Meta deu mais um passo em frente ao introduzir algumas melhorias importantes na nova família de modelos, oferecendo:

  • Suporta oito idiomas: Incluindo English, alemão, francês, italiano, português, hindi, espanhol e tailandês, expandindo o seu alcance para uma audiência global.
  • 128.000 tokens de janela de contexto: Permite que os modelos tratem entradas muito mais longas e mantenham o contexto em conversas ou documentos alargados.
  • Melhora as capacidades de raciocínio: Permite que os modelos sejam mais versáteis e capazes de gerir tarefas complexas de forma eficaz.
  • Segurança rigorosa: Os testes foram implementados para mitigar os riscos, reduzir os enviesamentos e evitar resultados prejudiciais, promovendo uma utilização responsável da IA.

Para além de tudo isto, a nova família de modelos Llama 3.1 destaca um grande avanço com o seu impressionante modelo de 405 mil milhões de parâmetros. Este número substancial de parâmetros representa um salto significativo no desenvolvimento da IA, melhorando consideravelmente a capacidade do modelo para compreender e gerar texto complexo. O modelo 405B inclui uma vasta gama de parâmetros, sendo que cada parâmetro se refere ao weights and biases na rede neural que o modelo aprende durante o treino. Isto permite que o modelo capte padrões linguísticos mais complexos, estabelecendo um novo padrão para modelos linguísticos de grande dimensão e demonstrando o potencial futuro da tecnologia de IA. Este modelo de grande escala não só melhora o desempenho numa vasta gama de tarefas, como também ultrapassa os limites do que a IA pode alcançar em termos de geração e compreensão de texto.

Arquitetura do modelo

A Llama 3.1 aproveita a arquitetura do modelo de transformador apenas descodificador, uma pedra angular dos grandes modelos de linguagem modernos. Esta arquitetura é conhecida pela sua eficiência e eficácia no tratamento de tarefas linguísticas complexas. A utilização de transformadores permite que a Llama 3.1 se destaque na compreensão e geração de texto semelhante ao humano, proporcionando uma vantagem significativa sobre os modelos que utilizam arquitecturas mais antigas, como LSTMs e GRUs.

Além disso, a família de modelos Llama 3.1 utiliza a arquitetura Mixture of Experts (MoE), que melhora a eficiência e a estabilidade do treino. Evitar a arquitetura MoE assegura um processo de formação mais consistente e fiável, uma vez que a MoE pode por vezes introduzir complexidades que podem afetar a estabilidade e o desempenho do modelo.

Fig. 1. Um diagrama que ilustra a arquitetura do modelo de transformador Llama 3.1.

A arquitetura do modelo Llama 3.1 funciona da seguinte forma:

1. Introduz os tokens de texto: O processo começa com a entrada, que consiste em tokens de texto. Estes tokens são unidades individuais de texto, como palavras ou subpalavras, que o modelo irá processar.

2. Embeddings de tokens: Os tokens do texto são então convertidos em token embeddings. Os embeddings são representações vectoriais densas dos tokens que captam o seu significado semântico e as suas relações dentro do texto. Esta transformação é crucial, pois permite que o modelo trabalhe com dados numéricos.

3. Mecanismo de auto-atenção: A auto-atenção permite que o modelo pondere a importância dos diferentes tokens na sequência de entrada ao codificar cada token. Este mecanismo ajuda o modelo a compreender o contexto e as relações entre os tokens, independentemente das suas posições na sequência. No mecanismo de auto-atenção, cada token na sequência de entrada é representado como um vetor de números. Estes vectores são utilizados para criar três tipos diferentes de representações: consultas, chaves e valores.

O modelo calcula a atenção que cada token deve dar aos outros tokens, comparando os vectores de consulta com os vectores-chave. Esta comparação resulta em pontuações que indicam a relevância de cada token em relação aos outros. 

4. Rede de alimentação: Após o processo de auto-atenção, os dados passam por uma rede feedforward. Esta rede é uma rede neural totalmente ligada que aplica transformações não lineares aos dados, ajudando o modelo a reconhecer e a aprender padrões complexos.

5. Repetição de camadas: As camadas de auto-atenção e de rede feedforward são empilhadas várias vezes. Esta aplicação repetida permite que o modelo capte dependências e padrões mais complexos nos dados.

6. Token de texto de saída: Finalmente, os dados processados são usados para gerar o token de texto de saída. Este token é a previsão do modelo para a palavra ou subpalavra seguinte na sequência, com base no contexto de entrada.

LLama 3.1 Desempenho da família de modelos e comparações com outros modelos

Os testes de benchmark revelam que a Llama 3.1 não só se mantém contra estes modelos de última geração, como também os ultrapassa em determinadas tarefas, demonstrando o seu desempenho superior.

Llama 3.1 405B: Alta capacidade 

O modelo Llama 3.1 foi submetido a uma avaliação exaustiva em mais de 150 conjuntos de dados de referência, onde foi rigorosamente comparado com outros modelos líderes de linguagem de grande dimensão. O modelo Llama 3.1 405B, reconhecido como o mais capaz da série recém-lançada, foi comparado com titãs do sector, como o GPT-4 da OpenAI e o Claude 3.5 Sonnet. Os resultados destas comparações revelam que a Llama 3.1 demonstra uma vantagem competitiva, mostrando o seu desempenho e capacidades superiores em várias tarefas.

Figura 2. Tabela que compara o desempenho do modelo Llama 3.1 405B com modelos semelhantes.

O impressionante número de parâmetros deste modelo e a sua arquitetura avançada permitem-lhe destacar-se na compreensão complexa e na geração de texto, ultrapassando frequentemente os seus concorrentes em benchmarks específicos. Estas avaliações realçam o potencial do Llama 3.1 para estabelecer novos padrões no campo dos modelos de linguagem de grande dimensão, fornecendo aos investigadores e programadores uma ferramenta poderosa para diversas aplicações.

Llama 3.1 70B: Gama média

Os modelos Llama mais pequenos e mais leves também demonstram um desempenho notável quando comparados com os seus homólogos. O modelo Llama 3.1 70B foi avaliado em comparação com modelos maiores, como o Mistral 8x22B e o GPT-3.5 Turbo. Por exemplo, o modelo Llama 3.1 70B demonstra consistentemente um desempenho superior nos conjuntos de dados de raciocínio, como o conjunto de dados ARC Challenge, e nos conjuntos de dados de codificação, como os conjuntos de dados HumanEval. Esses resultados destacam a versatilidade e a robustez da série Llama 3.1 em diferentes tamanhos de modelos, tornando-a uma ferramenta valiosa para uma ampla gama de aplicações.

Llama 3.1 8B: Leve

Além disso, o modelo Llama 3.1 8B foi comparado com modelos de tamanho semelhante, incluindo Gemma 2 9B e Mistral 7B. Estas comparações revelam que o modelo Llama 3.1 8B supera os seus concorrentes em vários conjuntos de dados de referência em diferentes géneros, como o conjunto de dados GPQA para raciocínio e o MBPP EvalPlus para codificação, demonstrando a sua eficiência e capacidade apesar da sua menor contagem de parâmetros.

Figura 3. Quadro de comparação dos desempenhos dos modelos Llama 3.1 70B e 8B com modelos semelhantes.

Como podes beneficiar dos modelos da família Llama 3.1?

O Meta permitiu que os novos modelos fossem aplicados de várias formas práticas e benéficas para os utilizadores:

Afinação

Os utilizadores podem agora afinar os modelos Llama 3.1 mais recentes para casos de utilização específicos. Este processo envolve o treino do modelo em novos dados externos aos quais não estava anteriormente exposto, melhorando assim o seu desempenho e adaptabilidade para aplicações específicas. O ajuste fino dá ao modelo uma vantagem significativa, permitindo-lhe compreender melhor e gerar conteúdos relevantes para domínios ou tarefas específicos.

Integração num sistema RAG

Os modelos Llama 3.1 podem agora ser integrados sem problemas nos sistemas Retrieval-Augmented Generation (RAG). Esta integração permite que o modelo aproveite fontes de dados externas de forma dinâmica, aumentando a sua capacidade de fornecer respostas precisas e contextualmente relevantes. Ao recuperar informações de grandes conjuntos de dados e ao incorporá-las no processo de geração, a Llama 3.1 melhora significativamente o seu desempenho em tarefas de conhecimento intensivo, oferecendo aos utilizadores resultados mais precisos e informados.

Geração de dados sintéticos

Também podes utilizar o modelo de 405 mil milhões de parâmetros para gerar dados sintéticos de alta qualidade, melhorando o desempenho de modelos especializados para casos de utilização específicos. Esta abordagem aproveita as amplas capacidades do Llama 3.1 para produzir dados direccionados e relevantes, melhorando assim a precisão e a eficiência das aplicações de IA personalizadas.

As conclusões

O lançamento do Llama 3.1 representa um salto significativo no domínio dos modelos de linguagem de grande dimensão, demonstrando o empenho da Meta no avanço da tecnologia de IA. 

Com um número substancial de parâmetros, treinamento extensivo em diversos conjuntos de dados e foco em processos de treinamento robustos e estáveis, o Llama 3.1 estabelece novos padrões de desempenho e capacidade no processamento de linguagem natural. Quer se trate de geração de texto, resumo ou tarefas de conversação complexas, a Llama 3.1 demonstra uma vantagem competitiva em relação a outros modelos líderes. Este modelo não só ultrapassa os limites do que a IA pode alcançar atualmente, como também prepara o terreno para futuras inovações no cenário em constante evolução da inteligência artificial.

Em Ultralytics, dedicamo-nos a alargar os limites da tecnologia de IA. Para explorar as nossas soluções de IA de ponta e acompanhar as nossas últimas inovações, consulta o nosso repositório GitHub. Junta-te à nossa vibrante comunidade no Discord e vê como estamos a revolucionar indústrias como a dos carros autónomos e a da produção! 🚀

Logótipo do FacebookLogótipo do TwitterLogótipo do LinkedInSímbolo de ligação de cópia

Ler mais nesta categoria

Vamos construir juntos o futuro
da IA!

Começa a tua viagem com o futuro da aprendizagem automática