Explore a arquitetura Transformer e o mecanismo de autoatenção. Saiba como eles potencializam modelos de IA como RT-DETR Ultralytics para obter precisão superior.
Um Transformer é uma arquitetura de aprendizagem profunda que se baseia num mecanismo chamado autoatenção para processar dados de entrada sequenciais, como linguagem natural ou características visuais. Originalmente introduzido pelos Google no artigo marcante Attention Is All You Need Attention Is All You Need, o Transformer revolucionou o campo da inteligência artificial (IA) ao descartar as limitações de processamento sequencial das antigas Redes Neurais Recorrentes (RNNs). Em vez disso, os Transformers analisam sequências inteiras de dados simultaneamente, permitindo uma paralelização massiva e tempos de treinamento significativamente mais rápidos em hardware moderno, como GPUs.
A principal inovação do Transformer é o mecanismo de autoatenção. Isso permite que o modelo pondera a importância das diferentes partes dos dados de entrada em relação umas às outras. Por exemplo, numa frase, o modelo pode aprender que a palavra «banco» está mais relacionada com «dinheiro» do que com «rio» com base no contexto circundante.
Essa arquitetura geralmente consiste em dois componentes principais:
No domínio da visão computacional (CV), os modelos geralmente empregam uma variação chamada Vision Transformer (ViT). Em vez de processar tokens de texto, a imagem é dividida em patches de tamanho fixo (por exemplo, 16x16 pixels). Esses patches são achatados e tratados como uma sequência, permitindo que o modelo capture o "contexto global" — compreendendo as relações entre partes distantes de uma imagem — de forma mais eficaz do que uma rede neural convolucional (CNN) padrão.
É importante distinguir a arquitetura Transformer de termos relacionados:
A versatilidade dos transformadores levou à sua adoção em vários setores:
Embora as CNNs tenham tradicionalmente dominado a deteção de objetos, modelos baseados em transformadores, como o Real-Time Detection Transformer (RT-DETR), surgiram como alternativas poderosas. RT-DETR a velocidade das estruturas de base das CNNs com a precisão dos cabeçotes de decodificação do transformador.
No entanto, os modelos Transformer puros podem ser computacionalmente pesados. Para muitas aplicações de ponta, modelos híbridos altamente otimizados como o YOLO26— que integram mecanismos de atenção eficientes com processamento convolucional rápido — oferecem um equilíbrio superior entre velocidade e precisão. É possível gerenciar o treinamento e a implementação desses modelos facilmente por meio Ultralytics , que simplifica o fluxo de trabalho desde a anotação do conjunto de dados até a exportação do modelo.
O exemplo a seguir demonstra como realizar inferência usando um modelo baseado em Transformer dentro do
ultralytics pacote. Este código carrega um RT-DETR pré-treinado e deteta objetos numa imagem.
from ultralytics import RTDETR
# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results with bounding boxes
results[0].show()
Para mais informações sobre os fundamentos matemáticos, a PyTorch sobre camadas Transformer fornece detalhes técnicos, enquanto o guia da IBM sobre Transformers oferece uma perspectiva empresarial de alto nível .