Descobre como os Transformadores de Visão (ViT) revolucionam a visão computacional com auto-atenção, destacando-se em tarefas de classificação, deteção e segmentação.
Os Transformadores de Visão (ViT) revolucionaram a visão computacional ao introduzir arquitecturas baseadas em transformadores tradicionalmente utilizadas no processamento de linguagem natural (PNL) para tarefas de visão. Ao contrário das redes neurais convolucionais (CNNs), que se baseiam em operações convolucionais, os ViTs usam mecanismos de auto-atenção para analisar e processar dados de imagem, oferecendo uma abordagem mais flexível e escalável para vários desafios de visão.
Os ViTs dividem uma imagem de entrada em pequenos fragmentos de tamanho fixo, achatam-nos e tratam cada fragmento como um "token", semelhante às palavras na PNL. Estes tokens são depois incorporados em vectores de elevada dimensão e passam por várias camadas de codificadores transformadores, onde os mecanismos de auto-atenção permitem que o modelo se concentre nas partes relevantes da imagem. Esta estrutura permite aos ViTs captar eficazmente as dependências locais e globais.
Os ViTs baseiam-se em codificações posicionais para reter informações espaciais, um aspeto crítico dos dados de imagem que os transformadores tradicionais não possuem. Ao aprender as relações entre os patches, os ViTs podem alcançar um desempenho de ponta em tarefas como classificação de imagens, deteção de objectos e segmentação.
Sabe mais sobre o funcionamento dos transformadores na entrada do glossário Transformadores.
Os ViTs destacam-se em tarefas de classificação de imagens, utilizando a sua capacidade de captar caraterísticas globais da imagem. Os ViTs pré-treinados, como o Vision Transformer da Google, alcançaram uma precisão de ponta em parâmetros de referência como o ImageNet. Por exemplo, os ViTs são aplicados nos cuidados de saúde para classificar imagens médicas, ajudando no diagnóstico de doenças.
Explora as tarefas de classificação de imagens com os modelosUltralytics YOLO .
Os ViTs são cada vez mais utilizados em pipelines de deteção de objectos, substituindo os tradicionais backbones baseados em convolução. Modelos como o DETR (DEtection TRansformer) demonstram a eficácia dos ViTs na deteção e localização de objectos sem depender de redes de propostas de regiões.
Descobre soluções de deteção de objectos com Ultralytics YOLO.
Ao tirar partido da auto-atenção, os ViTs fornecem soluções precisas e eficientes para a segmentação semântica e de instâncias. As aplicações incluem a condução autónoma, onde a segmentação precisa ao nível do pixel é crucial para detetar sinais de trânsito, peões e veículos.
Sabe mais sobre as tarefas de segmentação na segmentação de imagens.
Cuidados de saúde: Os ViTs são utilizados na imagiologia médica para tarefas como a deteção de tumores e a segmentação de órgãos. A sua capacidade de analisar imagens de alta resolução ajuda no diagnóstico precoce e no planeamento de tratamentos. Por exemplo, as capacidades de imagiologia médica doUltralytics YOLO11 podem ser melhoradas com backbones baseados em ViTs para uma maior precisão.
Veículos autónomos: Os ViTs alimentam os sistemas de visão em carros autónomos, permitindo a deteção em tempo real de obstáculos, marcas de faixa e sinais de trânsito. A sua consciência do contexto global aumenta a segurança e a tomada de decisões.
Explora mais aplicações de IA na condução autónoma com soluções de IA de visão.
Embora os ViTs ofereçam vantagens significativas, também apresentam desafios:
Para resolver estes problemas, foram introduzidas abordagens como os modelos híbridos que combinam ViTs com CNNs e técnicas como a fusão de retalhos para tornar os ViTs mais eficientes.
Os ViTs continuam a ultrapassar os limites da visão computacional, oferecendo soluções inovadoras em todos os sectores. Com ferramentas como o Ultralytics HUB, os programadores podem explorar o potencial dos ViTs em aplicações do mundo real, simplificando a implementação e escalando as soluções de IA.