Conhecer a Lhama da Meta 3

Abirami Vina

7 min. de leitura

10 de maio de 2024

O Llama 3 da Meta foi lançado recentemente e foi recebido com grande entusiasmo pela comunidade de IA. Vamos saber mais sobre a Llama 3 - os mais recentes avanços da Meta AI.

Quando reunimos as inovações em inteligência artificial (IA) do primeiro trimestre de 2024, vimos que os LLMs, ou modelos de linguagem de grande dimensão, estavam a ser lançados a torto e a direito por diferentes organizações. Dando continuidade a esta tendência, em 18 de abril de 2024, a Meta lançou o Llama 3, um LLM de código aberto de última geração. 

Pode estar a pensar: É apenas mais um LLM. Porque é que a comunidade da IA está tão entusiasmada com ele?

Embora seja possível afinar modelos como o GPT-3 ou o Gemini para obter respostas personalizadas, estes não oferecem total transparência relativamente ao seu funcionamento interno, como os dados de treino, os parâmetros do modelo ou os algoritmos. Em contraste, o Llama 3 da Meta é mais transparente, com a sua arquitetura e pesos disponíveis para download. Para a comunidade de IA, isto significa uma maior liberdade de experimentação.

Neste artigo, vamos saber o que o Llama 3 pode fazer, como surgiu e o seu impacto no domínio da IA. Vamos diretos ao assunto!

A evolução dos modelos Llama da Meta

Antes de nos debruçarmos sobre a Llama 3, vamos rever as suas versões anteriores.

A Meta lançou o Llama 1 em fevereiro de 2023, que apresentava quatro variantes com parâmetros que variavam entre 7 mil milhões e 64 mil milhões. Na aprendizagem automática, os "parâmetros" referem-se aos elementos do modelo que são aprendidos a partir dos dados de treino. Devido ao seu número mais reduzido de parâmetros, a Llama 1 teve por vezes dificuldade em compreender as nuances e deu respostas inconsistentes.

Pouco depois da Llama 1, a Meta lançou a Llama 2 em julho de 2023. O modelo foi treinado com 2 biliões de tokens. Um token representa um pedaço de texto, como uma palavra ou parte de uma palavra, utilizado como unidade básica de dados para processamento no modelo. O modelo também incluiu melhorias como uma janela de contexto duplicada de 4096 tokens para compreender passagens mais longas e mais de 1 milhão de anotações humanas para diminuir os erros. Apesar destas melhorias, o Llama 2 continuava a necessitar de muito poder de computação, algo que Meta pretendia corrigir com o Llama 3.

Apresentação da Lhama 3 da Meta

O Llama 3 vem com quatro variantes que foram treinadas contra uns impressionantes 15 triliões de tokens. Mais de 5% desses dados de treino (cerca de 800 milhões de tokens) representavam dados em 30 línguas diferentes. Todas as variantes do Llama 3 podem ser executadas em vários tipos de hardware de consumo e têm um comprimento de contexto de 8k tokens. 

__wf_reserved_inherit
Figura 1. Lhama 3 Vs Lhama 2.

As variantes do modelo estão disponíveis em dois tamanhos: 8B e 70B, indicando 8 mil milhões e 70 mil milhões de parâmetros, respetivamente. Existem também duas versões, base e instruct. "Base" refere-se à versão padrão pré-treinada. "Instruct" é uma versão optimizada para aplicações ou domínios específicos através de formação adicional em dados relevantes.

Estas são as variantes do modelo Llama 3:

  • Meta-Llama-3-8b: O modelo básico 8B fornece capacidades fundamentais de IA e é ideal para tarefas gerais, como o desenvolvimento de chatbots de atendimento ao cliente.
  • Meta-Llama-3-8b-instruct: Uma versão aperfeiçoada do modelo 8B que é optimizada para tarefas específicas. Por exemplo, pode ser usado para criar ferramentas educacionais que explicam assuntos complexos.
  • Meta-Llama-3-70b: O modelo base 70B foi concebido para aplicações de IA de elevado desempenho. Este modelo funcionaria bem para aplicações como o processamento de extensa literatura biomédica para a descoberta de medicamentos.
  • Meta-Llama-3-70b-instruct: Esta versão é aperfeiçoada a partir do modelo 70B para aplicações de elevada precisão, como a análise de documentos jurídicos ou médicos, onde a exatidão é crítica.

Arquitetura do modelo Llama 3 da Meta

Tal como acontece com qualquer outro avanço da Meta IA, foram implementadas medidas rigorosas de controlo de qualidade para manter a integridade dos dados e minimizar os enviesamentos durante o desenvolvimento do Llama 3. Assim, o produto final é um modelo poderoso que foi criado de forma responsável. 

A arquitetura do modelo Llama 3 destaca-se pelo seu enfoque na eficiência e desempenho em tarefas de processamento de linguagem natural. Construída sobre uma estrutura baseada no Transformer, enfatiza a eficiência computacional, especialmente durante a geração de texto, utilizando uma arquitetura apenas de descodificador. 

O modelo gera resultados com base apenas no contexto anterior, sem um codificador para codificar as entradas, o que o torna muito mais rápido.

__wf_reserved_inherit
Fig. 2. Arquitetura do modelo responsável Llama 3.

Os modelos Llama 3 incluem um tokenizador com um vocabulário de 128K tokens. Um vocabulário maior significa que os modelos podem entender e processar melhor o texto. Além disso, os modelos agora usam a atenção de consulta agrupada (GQA) para melhorar a eficiência da inferência. A GQA é uma técnica que pode ser considerada como um holofote que ajuda os modelos a concentrarem-se em partes relevantes dos dados de entrada para gerar respostas mais rápidas e precisas.

Eis mais alguns pormenores interessantes sobre a arquitetura do modelo da Llama 3:

  • Processamento de documentos com consciência dos limites: O Llama 3 mantém a clareza através dos limites do documento, o que é fundamental para tarefas como o resumo.
  • Melhor compreensão do código: Os dados de treino do Llama 3 incluem quatro vezes mais amostras de código, aumentando as suas capacidades de codificação.
  • Controlo de qualidade robusto: Medidas rigorosas, incluindo filtros heurísticos e remoção de NSFW, asseguram a integridade dos dados e minimizam os enviesamentos.

A Llama 3 está a transformar a forma como abordamos o treino de modelos

Para treinar os maiores modelos Llama 3, foram combinados três tipos de paralelização: paralelização de dados, paralelização de modelos e paralelização de pipeline. 

A paralelização de dados divide os dados de treinamento entre várias GPUs, enquanto a paralelização de modelos particiona a arquitetura do modelo para usar o poder computacional de cada GPU. A paralelização de pipeline divide o processo de treino em fases sequenciais, optimizando a computação e a comunicação.

A implementação mais eficiente alcançou uma utilização de computação notável, excedendo 400 TFLOPS por GPU quando treinada em 16.000 GPUs em simultâneo. Essas execuções de treinamento foram realizadas em dois clusters de GPUs personalizados, cada um com 24.000 GPUs. Esta infraestrutura computacional substancial forneceu a potência necessária para treinar os modelos Llama 3 em grande escala de forma eficiente.

Para maximizar o tempo de atividade da GPU, foi desenvolvida uma nova pilha de formação avançada, automatizando a deteção, o tratamento e a manutenção de erros. A fiabilidade do hardware e os mecanismos de deteção foram muito melhorados para mitigar os riscos de corrupção silenciosa de dados. Além disso, foram desenvolvidos novos sistemas de armazenamento escaláveis para reduzir as despesas de checkpointing e rollback. 

Estas melhorias conduziram a um tempo de treino global com uma eficácia superior a 95%. Combinadas, aumentaram a eficiência do treino da Llama 3 em cerca de três vezes em comparação com a Llama 2. Esta eficiência não é apenas impressionante; está a abrir novas possibilidades para os métodos de treino de IA. 

Abrir portas com Llama 3

Como o Llama 3 é de código aberto, os investigadores e estudantes podem estudar o seu código, realizar experiências e participar em debates sobre questões éticas e preconceitos. No entanto, a Llama 3 não é apenas para o público académico. Também está a fazer ondas em aplicações práticas. Está a tornar-se a espinha dorsal da interface de conversação Meta AI, integrando-se perfeitamente em plataformas como o Facebook, Instagram, WhatsApp e Messenger. Com a Meta AI, os utilizadores podem participar em conversas em linguagem natural, aceder a recomendações personalizadas, realizar tarefas e ligar-se facilmente a outras pessoas.

__wf_reserved_inherit
Figura 3. Meta-IA: alimentada por Llama 3.

Comparação do Llama 3 com outros LLMs

A Llama 3 tem um desempenho excecional em vários testes de referência chave que avaliam a compreensão de linguagem complexa e as capacidades de raciocínio. Aqui estão alguns dos testes de referência que testam vários aspectos das capacidades da Llama 3:

  • Massive Multitask Language Understanding (MMLU) - Mede o seu conhecimento em vários domínios.
  • Resposta a perguntas de carácter geral (GPQA) - Avalia a capacidade do modelo para gerar respostas coerentes e corretas a uma vasta gama de perguntas de conhecimento geral.
  • HumanEval - Centra-se em tarefas de codificação e resolução de problemas, testando a capacidade do modelo para gerar código de programação funcional e resolver desafios algorítmicos.

Os excelentes resultados do Llama 3 nestes testes distinguem-no claramente de concorrentes como o Gemma 7B da Google, o Mistral 7B da Mistral e o Claude 3 Sonnet da Anthropic. De acordo com as estatísticas publicadas, em particular o modelo 70B, o Llama 3 supera estes modelos em todos os testes de referência acima referidos.

__wf_reserved_inherit
Figura 4. Comparação do Llama 3 com outros LLMs.

A Meta Llama 3 está a tornar-se amplamente acessível

A Meta está a expandir o alcance da Llama 3, disponibilizando-a numa variedade de plataformas, tanto para utilizadores comuns como para programadores. Para os utilizadores comuns, a Llama 3 está integrada nas plataformas populares da Meta, como o WhatsApp, o Instagram, o Facebook e o Messenger. Os utilizadores podem aceder a funcionalidades avançadas como a pesquisa em tempo real e a capacidade de gerar conteúdos criativos diretamente nestas aplicações. 

A Llama 3 está também a ser incorporada em tecnologias portáteis como os óculos inteligentes Ray-Ban Meta e os auscultadores Meta Quest VR para experiências interactivas.

O Llama 3 está disponível numa variedade de plataformas para programadores, incluindo AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM e Snowflake. Também é possível aceder a estes modelos diretamente a partir do Meta. A vasta gama de opções facilita aos programadores a integração destas capacidades avançadas de modelos de IA nos seus projectos, quer prefiram trabalhar diretamente com o Meta ou através de outras plataformas populares.

O que levar

Os avanços da aprendizagem automática continuam a transformar a forma como interagimos com a tecnologia todos os dias. O Llama 3 da Meta mostra que os LLM já não se limitam a gerar texto. Os LLM estão a resolver problemas complexos e a lidar com várias línguas. Em geral, a Llama 3 está a tornar a IA mais adaptável e acessível do que nunca. Olhando para o futuro, as actualizações planeadas para a Llama 3 prometem ainda mais capacidades, como lidar com vários modelos e compreender contextos maiores. 

Consulte o nosso repositório GitHub e junte-se à nossa comunidade para saber mais sobre IA. Visite as nossas páginas de soluções para ver como a IA está a ser aplicada em áreas como o fabrico e a agricultura.

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência