Glossário

Transformador

Descobre como as arquitecturas Transformer revolucionam a IA, potenciando avanços em PNL, visão computacional e tarefas avançadas de ML.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Os transformadores representam uma arquitetura de rede neural fundamental que fez avançar significativamente os domínios da inteligência artificial (IA) e da aprendizagem automática (AM), especialmente no processamento da linguagem natural (PNL) e, cada vez mais, na visão computacional. Introduzidas no influente artigo"Attention Is All You Need" (A atenção é tudo o que precisas), processam dados sequenciais, como texto ou séries temporais, utilizando um mecanismo designado por auto-atenção, que permite ao modelo ponderar dinamicamente a importância de diferentes partes do input. Esta abordagem ultrapassa as principais limitações de arquitecturas mais antigas, como as Redes Neuronais Recorrentes (RNN).

Como funcionam os transformadores

A principal inovação dos Transformers é o mecanismo de auto-atenção. Ao contrário das Redes Neurais Recorrentes (RNNs), que processam a entrada sequencialmente e podem ter dificuldades com sequências longas devido a problemas como o desaparecimento de gradientes, os Transformers podem considerar todas as partes da sequência de entrada simultaneamente. Essa capacidade de processamento paralelo acelera significativamente o treinamento em hardware moderno, como GPUs. Ao contrário das Redes Neuronais Convolucionais (CNNs) típicas, que se concentram em caraterísticas locais por meio de núcleos de tamanho fixo, a atenção permite que os Transformers capturem dependências de longo alcance e relações contextuais em toda a entrada, seja texto ou fragmentos de imagem.

Relevância e impacto

Os transformadores tornaram-se a base de muitos modelos de IA de última geração devido à sua eficácia na captura do contexto e no tratamento de sequências longas. A sua natureza paralelizável permitiu o treino de modelos maciços com milhares de milhões de parâmetros, como o GPT-3 e o GPT-4, levando a avanços na IA generativa. Esta escalabilidade e desempenho tornaram os Transformers centrais para o progresso em várias tarefas de IA, impulsionando a inovação na investigação e na indústria. Muitos modelos populares de Transformers estão prontamente disponíveis através de plataformas como Hugging Face e implementados com recurso a frameworks como o PyTorch e TensorFlow.

Aplicações em IA e ML

Os transformadores são altamente versáteis e alimentam inúmeras aplicações de IA:

Transformadores vs. outras arquitecturas

Em comparação com as RNNs, os Transformers oferecem um melhor tratamento das dependências de longo alcance e uma paralelização superior, tornando-os mais adequados para grandes conjuntos de dados e modelos. Em comparação com as CNNs tradicionais, que se destacam na captura de hierarquias espaciais locais usando convoluções, os Transformers (especialmente ViTs) podem modelar relações globais dentro dos dados de forma mais eficaz através da auto-atenção. No entanto, as arquitecturas híbridas combinam frequentemente os pontos fortes de ambas, utilizando CNNs para a extração inicial de caraterísticas e Transformers para a compreensão contextual, como se vê em modelos como o RT-DETR. A escolha entre estas arquitecturas depende muitas vezes da tarefa específica, das caraterísticas dos dados e dos recursos computacionais disponíveis, envolvendo frequentemente técnicas como a transferência de aprendizagem a partir de modelos pré-treinados disponíveis em plataformas como o Ultralytics HUB.

Lê tudo