Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Transformer

Explore a arquitetura Transformer e o mecanismo de autoatenção. Saiba como eles potencializam modelos de IA como RT-DETR Ultralytics para obter precisão superior.

Um Transformer é uma arquitetura de aprendizagem profunda que se baseia num mecanismo chamado autoatenção para processar dados de entrada sequenciais, como linguagem natural ou características visuais. Originalmente introduzido pelos Google no artigo marcante Attention Is All You Need Attention Is All You Need, o Transformer revolucionou o campo da inteligência artificial (IA) ao descartar as limitações de processamento sequencial das antigas Redes Neurais Recorrentes (RNNs). Em vez disso, os Transformers analisam sequências inteiras de dados simultaneamente, permitindo uma paralelização massiva e tempos de treinamento significativamente mais rápidos em hardware moderno, como GPUs.

Como os Transformers Funcionam

A principal inovação do Transformer é o mecanismo de autoatenção. Isso permite que o modelo pondera a importância das diferentes partes dos dados de entrada em relação umas às outras. Por exemplo, numa frase, o modelo pode aprender que a palavra «banco» está mais relacionada com «dinheiro» do que com «rio» com base no contexto circundante.

Essa arquitetura geralmente consiste em dois componentes principais:

  • Codificador: Processa os dados de entrada numa representação numérica rica ou incorporação.
  • Decodificador: usa a saída do codificador para gerar o resultado final, como uma frase traduzida ou uma caixa delimitadora prevista.

No domínio da visão computacional (CV), os modelos geralmente empregam uma variação chamada Vision Transformer (ViT). Em vez de processar tokens de texto, a imagem é dividida em patches de tamanho fixo (por exemplo, 16x16 pixels). Esses patches são achatados e tratados como uma sequência, permitindo que o modelo capture o "contexto global" — compreendendo as relações entre partes distantes de uma imagem — de forma mais eficaz do que uma rede neural convolucional (CNN) padrão.

Transformadores vs. Conceitos relacionados

É importante distinguir a arquitetura Transformer de termos relacionados:

  • Mecanismo de atenção: este é o conceito geral de focar em partes específicas dos dados. O Transformer é uma arquitetura específica construída inteiramente em torno de camadas de atenção, enquanto outros modelos podem usar a atenção apenas como um pequeno complemento.
  • Modelo de Linguagem Grande (LLM): Termos como «GPT» referem-se a modelos específicos treinados em grandes quantidades de texto. Quase todos os LLMs modernos usam a arquitetura Transformer como seu motor subjacente.

Aplicações no Mundo Real

A versatilidade dos transformadores levou à sua adoção em vários setores:

  1. Imagiologia médica: Na IA na área da saúde, os transformadores são usados para tarefas complexas, como a análise de imagens médicas. A sua capacidade de compreender relações espaciais globais ajuda a detetar anomalias subtis em ressonâncias magnéticas de alta resolução ou tomografias computadorizadas que as CNNs focadas em características locais podem deixar passar.
  2. Sistemas autônomos: para veículos autônomos, compreender a trajetória de pedestres e outros veículos é fundamental. Os transformadores se destacam na compreensão de vídeos, rastreando objetos ao longo do tempo e prevendo movimentos futuros para garantir uma navegação segura.

Detecção de objetos com transformadores

Embora as CNNs tenham tradicionalmente dominado a deteção de objetos, modelos baseados em transformadores, como o Real-Time Detection Transformer (RT-DETR), surgiram como alternativas poderosas. RT-DETR a velocidade das estruturas de base das CNNs com a precisão dos cabeçotes de decodificação do transformador.

No entanto, os modelos Transformer puros podem ser computacionalmente pesados. Para muitas aplicações de ponta, modelos híbridos altamente otimizados como o YOLO26— que integram mecanismos de atenção eficientes com processamento convolucional rápido — oferecem um equilíbrio superior entre velocidade e precisão. É possível gerenciar o treinamento e a implementação desses modelos facilmente por meio Ultralytics , que simplifica o fluxo de trabalho desde a anotação do conjunto de dados até a exportação do modelo.

Python : Usando RT-DETR

O exemplo a seguir demonstra como realizar inferência usando um modelo baseado em Transformer dentro do ultralytics pacote. Este código carrega um RT-DETR pré-treinado e deteta objetos numa imagem.

from ultralytics import RTDETR

# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")

# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results with bounding boxes
results[0].show()

Para mais informações sobre os fundamentos matemáticos, a PyTorch sobre camadas Transformer fornece detalhes técnicos, enquanto o guia da IBM sobre Transformers oferece uma perspectiva empresarial de alto nível .

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora