Glossário

Modelo de língua grande (LLM)

Descobre como os Modelos de Linguagem Grandes (LLMs) revolucionam a IA com PNL avançada, potenciando chatbots, criação de conteúdos e muito mais. Aprende os principais conceitos!

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Os Modelos de Linguagem de Grande Dimensão (MLG) representam um avanço significativo no domínio da Inteligência Artificial (IA), em particular no Processamento de Linguagem Natural (PLN). Estes modelos caracterizam-se pela sua imensa escala, contendo frequentemente milhares de milhões de parâmetros, e são treinados em vastos conjuntos de dados que incluem texto e código. Este treino extensivo permite que os LLMs compreendam o contexto, gerem texto coerente e semelhante ao humano, traduzam línguas, respondam a perguntas e executem uma vasta gama de tarefas baseadas na linguagem com uma proficiência notável. Eles são um tipo específico de modelo de Aprendizagem Profunda (DL), impulsionando a inovação em várias aplicações.

Definição

Um Modelo de Linguagem de Grande Dimensão é fundamentalmente uma rede neural (NN) sofisticada, normalmente baseada na arquitetura Transformer. O "grande" em LLM refere-se ao enorme número de parâmetros - variáveis ajustadas durante o treino - que podem ir de biliões a triliões. Mais parâmetros geralmente permitem que o modelo aprenda padrões mais complexos a partir dos dados. Os LLMs aprendem estes padrões através de aprendizagem não supervisionada em corpora de texto massivos recolhidos da Internet, livros e outras fontes. Este processo ajuda-os a compreender a gramática, os factos, as capacidades de raciocínio e até os preconceitos presentes nos dados. As principais capacidades incluem a previsão de palavras subsequentes numa frase, o que constitui a base para tarefas como a criação de texto e a resposta a perguntas. Exemplos bem conhecidos incluem a série GPT da OpenAI, como o GPT-4, os modelos Llama da Meta AI, como o Llama 3, o Gemini da Google DeepMind e o Claude da Anthropic.

Aplicações

A versatilidade das LLMs permite a sua aplicação em diversos domínios. Eis dois exemplos concretos:

  • IA de conversação: Os LLMs alimentam chatbots sofisticados e assistentes virtuais como ChatGPT e Google Assistant, permitindo interações mais naturais e conscientes do contexto em comparação com os antigos sistemas baseados em regras. Podem lidar com inquéritos de serviço ao cliente, fornecer informações e participar em diálogos complexos.
  • Criação e resumo de conteúdo: As empresas e os indivíduos utilizam os LLMs para gerar cópias de marketing, escrever artigos, criar fragmentos de código e resumir documentos extensos(Sumarização de Texto). Ferramentas como o Microsoft Copilot integram LLMs para ajudar os utilizadores em várias tarefas de escrita e codificação.

Conceitos-chave

Compreender os LLMs implica familiarizar-se com vários conceitos relacionados:

  • Modelos de fundação: Os LLM são considerados um tipo de modelo de base, o que significa que são modelos de grande dimensão treinados com base em dados alargados que podem ser adaptados(afinados) para várias tarefas a jusante.
  • Mecanismos de atenção: Crucial para a arquitetura do Transformer, a atenção permite que o modelo pondere a importância de diferentes palavras na sequência de entrada ao gerar a saída, permitindo um melhor tratamento das dependências de longo alcance e do contexto. O artigo seminal que introduz este mecanismo é"Attention Is All You Need".
  • Engenharia rápida: Esta é a prática de conceber entradas eficazes (prompts) para orientar o LLM no sentido de gerar o resultado desejado. A qualidade do prompt influencia significativamente a resposta do modelo.
  • Tokenização: Os LLMs processam o texto dividindo-o em unidades menores chamadas tokens (palavras, subpalavras ou caracteres). A forma como o texto é tokenizado afecta o desempenho do modelo e o custo computacional.

Embora os LLM sejam excelentes em tarefas linguísticas, diferem dos modelos concebidos principalmente para a Visão por Computador (CV), como os modelos Ultralytics YOLO utilizados para a deteção de objectos. No entanto, a ascensão dos modelos multimodais e dos modelos de visão da linguagem está a colmatar esta lacuna, combinando a compreensão da linguagem com o processamento visual. Plataformas como o Ultralytics HUB facilitam a formação e a implementação de vários modelos de IA, incluindo os que se destinam a tarefas de visão.

Lê tudo