Glossário

Transformador

Descobre como as arquitecturas Transformer revolucionam a IA, potenciando avanços em PNL, visão computacional e tarefas avançadas de ML.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Os transformadores representam uma arquitetura de rede neural fundamental que fez avançar significativamente os domínios da inteligência artificial (IA) e da aprendizagem automática (AM), especialmente no processamento da linguagem natural (PNL) e, cada vez mais, na visão computacional (VC). Introduzidas no influente artigo"Attention Is All You Need", processam dados sequenciais, como texto ou séries temporais, utilizando um mecanismo designado por auto-atenção. Isto permite que o modelo pondere dinamicamente a importância de diferentes partes da entrada, ultrapassando as principais limitações de arquitecturas mais antigas como as Redes Neuronais Recorrentes (RNN).

Como funcionam os transformadores

A inovação central dos Transformers é o mecanismo de auto-atenção. Ao contrário dos RNNs, que processam a entrada sequencialmente (um elemento após o outro) e podem ter dificuldades com sequências longas devido a problemas como o desaparecimento de gradientes, os Transformers podem considerar todas as partes da sequência de entrada simultaneamente. Essa capacidade de processamento paralelo acelera significativamente o treinamento em hardware moderno, como GPUs de empresas como NVIDIA.

Enquanto as redes neurais convolucionais (CNN) típicas se concentram em caraterísticas locais através de filtros de tamanho fixo que efectuam a convolução, o mecanismo de atenção permite aos transformadores captar dependências de longo alcance e relações contextuais em toda a entrada. Essa capacidade de entender o contexto global é crucial para tarefas que envolvem relações complexas, seja em texto ou em patches de imagem usados nos Transformadores de Visão (ViTs).

Relevância e impacto

Os transformadores tornaram-se a base de muitos modelos de IA de última geração devido à sua eficácia na captura do contexto e no tratamento de sequências longas. A sua natureza paralelizável permitiu o treino de modelos maciços com milhares de milhões de parâmetros, como o GPT-3 e o GPT-4 desenvolvidos pela OpenAI, levando a avanços na IA generativa. Esta escalabilidade e desempenho tornaram os Transformers centrais para o progresso em várias tarefas de IA, impulsionando a inovação na investigação e na indústria. Muitos modelos populares de Transformers, como o BERT, estão prontamente disponíveis através de plataformas como Hugging Face e implementados com recurso a frameworks como o PyTorch e TensorFlowfrequentemente integrados em plataformas MLOps como o Ultralytics HUB.

Aplicações em IA e ML

Os transformadores são altamente versáteis e alimentam inúmeras aplicações de IA:

Transformador vs. Outras Arquitecturas

É útil distinguir os Transformers de outras arquitecturas de redes neuronais comuns:

  • Transformadores vs. RNNs: As RNNs processam os dados sequencialmente, o que as torna adequadas para dados de séries temporais, mas propensas a esquecer informações anteriores em sequências longas(problema do gradiente de desaparecimento). Os transformadores processam sequências em paralelo usando auto-atenção, capturando dependências de longo alcance de forma mais eficaz e treinando mais rapidamente em hardware paralelo(GPUs).
  • Transformadores vs. CNNs: As CNNs são excelentes na identificação de padrões locais em dados semelhantes a grelhas (por exemplo, pixéis numa imagem) utilizando filtros convolucionais. São altamente eficientes para muitas tarefas de visão, como as abordadas por Ultralytics YOLO do Ultralytics. Os transformadores, em particular os ViTs, dividem as imagens em manchas e utilizam a auto-atenção para modelar as relações entre elas, captando o contexto global potencialmente melhor, mas exigindo frequentemente mais dados e recursos computacionais, especialmente durante o treino do modelo. As arquitecturas híbridas, que combinam caraterísticas da CNN com camadas de transformadores, visam tirar partido dos pontos fortes de ambas, como se vê em algumas variantesRT-DETR . A escolha depende muitas vezes da tarefa específica, da dimensão do conjunto de dados e dos recursos de computação disponíveis.
Lê tudo