Glossário

Mecanismo de atenção

Descobre como os mecanismos de atenção revolucionam a IA, melhorando as tarefas de PNL e de visão por computador, como a tradução, a deteção de objectos e muito mais!

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Um mecanismo de atenção é uma técnica utilizada na Inteligência Artificial (IA) e na Aprendizagem Automática (AM) que imita a atenção cognitiva humana. Permite que um modelo se concentre seletivamente nas partes mais relevantes dos dados de entrada - como palavras específicas numa frase ou regiões numa imagem - ao fazer previsões ou gerar resultados. Em vez de tratar todas as partes de entrada da mesma forma, esta concentração selectiva melhora o desempenho, especialmente quando se trata de grandes quantidades de informação, como longas sequências de texto ou imagens de alta resolução. Isto permite que os modelos lidem com tarefas complexas de forma mais eficaz e foi uma inovação fundamental popularizada pelo artigo seminal"Attention Is All You Need", que introduziu a arquitetura Transformer.

Como funcionam os mecanismos de atenção

Em vez de processar uniformemente toda uma sequência ou imagem de entrada, um mecanismo de atenção atribui "pontuações de atenção" ou pesos a diferentes segmentos de entrada. Estas pontuações indicam a importância ou relevância de cada segmento relativamente à tarefa específica em causa (por exemplo, prever a palavra seguinte numa frase ou classificar um objeto numa imagem). Os segmentos com pontuações mais altas recebem maior atenção do modelo durante a computação. Essa alocação dinâmica permite que o modelo dê prioridade a informações cruciais em cada etapa, levando a resultados mais precisos e contextualmente conscientes. Isto contrasta com arquitecturas mais antigas, como as Redes Neuronais Recorrentes (RNNs) padrão, que processam dados sequencialmente e podem ter dificuldade em recordar informações de partes anteriores de sequências longas devido a problemas como o desaparecimento de gradientes.

Relevância e tipos

Os mecanismos de atenção tornaram-se componentes fundamentais em muitos modelos de ponta, com um impacto significativo em domínios como o Processamento de Linguagem Natural (PLN) e a Visão por Computador (VC). Ajudam a ultrapassar as limitações dos modelos tradicionais no tratamento de dependências de longo alcance e na captação de relações intrincadas dentro dos dados. Os principais tipos e conceitos relacionados incluem:

  • Auto-atenção: Permite que um modelo pondere a importância de diferentes partes da mesma sequência de entrada em relação umas às outras. Este é o mecanismo central em Transformers.
  • Atenção cruzada: Permite que um modelo se concentre em partes relevantes de outra sequência, frequentemente utilizado em tarefas de sequência para sequência, como a tradução.
  • Atenção por área: Uma variante concebida para ser eficiente, concentrando a atenção em regiões maiores, como se vê em modelos como o Ultralytics YOLO12. Isto pode reduzir o custo computacional associado à auto-atenção padrão sobre grandes mapas de caraterísticas, comum na deteção de objectos.

Modelos como o BERT e o GPT baseiam-se fortemente na auto-atenção para tarefas de PNL, enquanto os Transformadores de Visão (ViTs) adaptam este conceito para tarefas de análise de imagens, como a classificação de imagens.

Atenção vs. Outros Mecanismos

É útil distinguir os mecanismos de atenção de outros componentes comuns das redes neuronais:

  • Redes neurais convolucionais (CNNs): As CNNs normalmente usam filtros de tamanho fixo(kernels) para processar hierarquias espaciais locais em dados como imagens. Embora sejam eficazes na captação de padrões locais, podem ter dificuldades com dependências de longo alcance sem arquitecturas especializadas. A atenção, em particular a auto-atenção, pode captar mais diretamente as relações globais em toda a entrada.
  • Redes neurais recorrentes (RNNs): As RNNs processam dados seqüenciais passo a passo, mantendo um estado oculto. Embora projetadas para seqüências, as RNNs padrão enfrentam desafios com dependências longas. Os mecanismos de atenção, muitas vezes utilizados juntamente com as RNNs ou como parte das arquitecturas Transformer, abordam explicitamente esta questão, permitindo que o modelo olhe para trás, para entradas passadas relevantes, independentemente da distância. Estruturas modernas como PyTorch e o TensorFlow suportam implementações de todas estas arquitecturas.

Aplicações no mundo real

Os mecanismos de atenção fazem parte integrante de numerosas aplicações modernas de IA:

Plataformas como o Ultralytics HUB permitem que os utilizadores treinem, validem e implementem modelos avançados, incluindo os que incorporam mecanismos de atenção, muitas vezes aproveitando pesos de modelos pré-treinados disponíveis em plataformas como Hugging Face.

Lê tudo