Glossário

Transformador de visão (ViT)

Descobre como os Transformadores de Visão (ViT) revolucionam a visão computacional com auto-atenção, destacando-se em tarefas de classificação, deteção e segmentação.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Os Transformadores de Visão (ViT) revolucionaram a visão computacional ao introduzir arquitecturas baseadas em transformadores tradicionalmente utilizadas no processamento de linguagem natural (PNL) para tarefas de visão. Ao contrário das redes neurais convolucionais (CNNs), que se baseiam em operações convolucionais, os ViTs usam mecanismos de auto-atenção para analisar e processar dados de imagem, oferecendo uma abordagem mais flexível e escalável para vários desafios de visão.

Como funcionam os transformadores de visão

Os ViTs dividem uma imagem de entrada em pequenos fragmentos de tamanho fixo, achatam-nos e tratam cada fragmento como um "token", semelhante às palavras na PNL. Estes tokens são depois incorporados em vectores de elevada dimensão e passam por várias camadas de codificadores transformadores, onde os mecanismos de auto-atenção permitem que o modelo se concentre nas partes relevantes da imagem. Esta estrutura permite aos ViTs captar eficazmente as dependências locais e globais.

Os ViTs baseiam-se em codificações posicionais para reter informações espaciais, um aspeto crítico dos dados de imagem que os transformadores tradicionais não possuem. Ao aprender as relações entre os patches, os ViTs podem alcançar um desempenho de ponta em tarefas como classificação de imagens, deteção de objectos e segmentação.

Vantagens sobre as CNNs

  1. Escalabilidade: As ViTs escalam melhor com grandes conjuntos de dados em comparação com as CNNs, tornando-as adequadas para aplicações que requerem imagens de alta resolução ou conjuntos de dados diversos.
  2. Contexto global: O mecanismo de auto-atenção permite aos ViTs modelar dependências de longo alcance numa imagem, enquanto as CNNs estão limitadas a campos receptivos locais.
  3. Flexibilidade: Os ViTs podem ser ajustados em diferentes tarefas com alterações arquitectónicas mínimas, aproveitando modelos pré-treinados como o ImageNet.

Sabe mais sobre o funcionamento dos transformadores na entrada do glossário Transformadores.

Aplicações dos transformadores de visão

Classificação de imagens

Os ViTs destacam-se em tarefas de classificação de imagens, utilizando a sua capacidade de captar caraterísticas globais da imagem. Os ViTs pré-treinados, como o Vision Transformer da Google, alcançaram uma precisão de ponta em parâmetros de referência como o ImageNet. Por exemplo, os ViTs são aplicados nos cuidados de saúde para classificar imagens médicas, ajudando no diagnóstico de doenças.

Explora as tarefas de classificação de imagens com os modelosUltralytics YOLO .

Deteção de objectos

Os ViTs são cada vez mais utilizados em pipelines de deteção de objectos, substituindo os tradicionais backbones baseados em convolução. Modelos como o DETR (DEtection TRansformer) demonstram a eficácia dos ViTs na deteção e localização de objectos sem depender de redes de propostas de regiões.

Descobre soluções de deteção de objectos com Ultralytics YOLO.

Segmentação de imagens

Ao tirar partido da auto-atenção, os ViTs fornecem soluções precisas e eficientes para a segmentação semântica e de instâncias. As aplicações incluem a condução autónoma, onde a segmentação precisa ao nível do pixel é crucial para detetar sinais de trânsito, peões e veículos.

Sabe mais sobre as tarefas de segmentação na segmentação de imagens.

Exemplos do mundo real

  1. Cuidados de saúde: Os ViTs são utilizados na imagiologia médica para tarefas como a deteção de tumores e a segmentação de órgãos. A sua capacidade de analisar imagens de alta resolução ajuda no diagnóstico precoce e no planeamento de tratamentos. Por exemplo, as capacidades de imagiologia médica doUltralytics YOLO11 podem ser melhoradas com backbones baseados em ViTs para uma maior precisão.

  2. Veículos autónomos: Os ViTs alimentam os sistemas de visão em carros autónomos, permitindo a deteção em tempo real de obstáculos, marcas de faixa e sinais de trânsito. A sua consciência do contexto global aumenta a segurança e a tomada de decisões.

Explora mais aplicações de IA na condução autónoma com soluções de IA de visão.

Desafios e considerações

Embora os ViTs ofereçam vantagens significativas, também apresentam desafios:

  • Requisitos de dados: Os ViTs funcionam melhor com grandes conjuntos de dados, uma vez que os seus mecanismos de auto-atenção requerem dados extensos para generalizar eficazmente.
  • Custos computacionais: O treino de ViTs requer recursos computacionais consideráveis devido à sua complexidade quadrática na auto-atenção.

Para resolver estes problemas, foram introduzidas abordagens como os modelos híbridos que combinam ViTs com CNNs e técnicas como a fusão de retalhos para tornar os ViTs mais eficientes.

Conceitos relacionados

  • Transformadores: Os ViTs são uma aplicação especializada de transformadores, concebidos originalmente para a PNL. Aprende mais sobre transformadores.
  • Auto-atenção: O mecanismo central dos ViTs que lhes permite concentrarem-se em diferentes partes da imagem. Explora a auto-atenção para uma compreensão mais profunda.

Os ViTs continuam a ultrapassar os limites da visão computacional, oferecendo soluções inovadoras em todos os sectores. Com ferramentas como o Ultralytics HUB, os programadores podem explorar o potencial dos ViTs em aplicações do mundo real, simplificando a implementação e escalando as soluções de IA.

Lê tudo