Glossário

Transformador

Descubra como as arquitecturas Transformer revolucionam a IA, potenciando avanços em PNL, visão computacional e tarefas avançadas de ML.

Um Transformer é uma arquitetura de rede neural revolucionária que se tornou uma pedra angular da Inteligência Artificial (IA) moderna, especialmente no Processamento de Linguagem Natural (PNL) e, mais recentemente, na Visão por Computador (CV). Apresentada pelos investigadores da Google no artigo de 2017 "Attention Is All You Need", a sua principal inovação é o mecanismo de auto-atenção, que permite ao modelo ponderar a importância de diferentes palavras ou partes de uma sequência de entrada. Isto permite-lhe captar dependências de longo alcance e relações contextuais de forma mais eficaz do que as arquitecturas anteriores. A conceção também permite uma paralelização maciça, possibilitando o treino de modelos muito maiores em conjuntos de dados maciços, o que levou ao aparecimento dos modelos de linguagem de grande dimensão (LLM).

Como funcionam os transformadores

Ao contrário dos modelos sequenciais, como as Redes Neuronais Recorrentes (RNNs), os Transformers processam sequências inteiras de dados de uma só vez. A ideia central é lidar com todos os elementos em paralelo, o que acelera significativamente o treinamento em hardware moderno, como GPUs.

Para compreender a ordem da sequência sem recorrência, os Transformers utilizam uma técnica chamada codificação posicional, que acrescenta informação sobre a posição de cada elemento (por exemplo, uma palavra numa frase) à sua incorporação. As camadas de auto-atenção processam então estas incrustações, permitindo que cada elemento "olhe" para todos os outros elementos da sequência e determine quais são os mais relevantes para a compreensão do seu significado. Esta consciência global do contexto é uma grande vantagem para tarefas complexas. Estruturas como o PyTorch e o TensorFlow oferecem um suporte alargado para a construção de modelos baseados em transformadores.

Aplicações dos transformadores

O impacto dos Transformers abrange vários domínios, impulsionando o progresso em tarefas de linguagem e de visão.

  1. Tradução e geração de idiomas: Serviços como o Google Translate utilizam modelos baseados no Transformer para uma tradução automática de alta qualidade. O modelo pode considerar toda a frase de origem para produzir uma tradução mais fluente e exacta. Da mesma forma, modelos como o GPT-4 são excelentes na geração de texto, compreendendo o contexto para criar parágrafos coerentes, escrever artigos ou alimentar chatbots avançados.
  2. Visão computacional: O Vision Transformer (ViT) adapta a arquitetura para tarefas baseadas em imagens. Trata uma imagem como uma sequência de manchas e utiliza a auto-atenção para modelar as relações entre elas. Esta abordagem é utilizada em modelos como o RT-DETR para deteção de objectos, em que a compreensão do contexto global de uma cena pode ajudar a identificar objectos com maior precisão, especialmente em ambientes desordenados. Pode ver uma comparação do RT-DETR e do YOLOv8 para compreender as suas diferenças arquitectónicas.

Transformador Vs. Outras Arquitecturas

É útil distinguir os Transformers de outras arquitecturas de redes neuronais comuns:

  • Transformadores vs. RNNs: Os RNNs processam os dados sequencialmente, o que os torna inerentemente lentos e susceptíveis ao problema do gradiente decrescente, fazendo com que se esqueçam de informações anteriores em sequências longas. Os transformadores superam isso com processamento paralelo e auto-atenção, capturando dependências de longo alcance com muito mais eficácia.
  • Transformadores vs. CNNs: As Redes Neuronais Convolucionais (CNN) são altamente eficientes para tarefas de visão, utilizando filtros convolucionais para identificar padrões locais em dados semelhantes a grelhas, como píxeis. São a base de modelos como a família Ultralytics YOLO. Os transformadores, pelo contrário, captam relações globais, mas requerem frequentemente mais dados e recursos de computação. Os modelos híbridos, que combinam uma espinha dorsal de CNN com camadas de transformadores, têm como objetivo obter o melhor dos dois mundos.

Variantes de transformadores eficientes

O custo computacional da auto-atenção total do Transformer original aumenta quadraticamente com o comprimento da sequência, o que o torna difícil para sequências muito longas. Este facto levou ao desenvolvimento de variantes mais eficientes.

  • Longformer: Utiliza um mecanismo de atenção de janela deslizante combinado com a atenção global em tokens específicos para reduzir a complexidade computacional.
  • Reformador: Utiliza técnicas como o hashing sensível à localidade para aproximar a atenção plena, tornando-a mais eficiente em termos de memória.
  • Transformer-XL: Introduz um mecanismo de recorrência que permite ao modelo aprender dependências para além de um comprimento fixo, o que é particularmente útil para a modelação auto-regressiva da linguagem.

Esses avanços continuam a expandir a aplicabilidade dos Transformers a novos problemas. Ferramentas e plataformas como o Hugging Face e o Ultralytics HUB facilitam o acesso e a implantação desses modelos poderosos para os desenvolvedores.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência