Glossaire

Transformateur de vision (ViT)

Découvre comment les transformateurs de vision (ViT) révolutionnent la vision par ordinateur grâce à l'auto-attention, en excellant dans les tâches de classification, de détection et de segmentation.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Les transformateurs de vision (ViT) ont révolutionné la vision par ordinateur en introduisant des architectures basées sur des transformateurs traditionnellement utilisées dans le traitement du langage naturel (NLP) pour les tâches de vision. Contrairement aux réseaux neuronaux convolutifs (CNN), qui reposent sur des opérations de convolution, les ViT utilisent des mécanismes d'auto-attention pour analyser et traiter les données d'image, offrant ainsi une approche plus souple et plus évolutive pour relever divers défis en matière de vision.

Comment fonctionnent les transformateurs de vision

Les ViTs divisent une image d'entrée en parcelles de taille fixe, les aplatissent et traitent chaque parcelle comme un "jeton", similaire aux mots dans le NLP. Ces jetons sont ensuite intégrés dans des vecteurs à haute dimension et passent par plusieurs couches d'encodeurs transformateurs, où des mécanismes d'auto-attention permettent au modèle de se concentrer sur les parties pertinentes de l'image. Cette structure permet aux ViT de capturer efficacement les dépendances locales et globales.

Les ViT s'appuient sur les encodages positionnels pour conserver les informations spatiales, un aspect essentiel des données d'image dont les transformateurs traditionnels sont dépourvus. En apprenant les relations entre les patchs, les ViTs peuvent atteindre des performances de pointe dans des tâches telles que la classification d'images, la détection d'objets et la segmentation.

Avantages par rapport aux CNN

  1. Évolutivité: Les ViTs s'adaptent mieux aux grands ensembles de données que les CNN, ce qui les rend adaptés aux applications nécessitant des images haute résolution ou des ensembles de données divers.
  2. Contexte global: Le mécanisme d'auto-attention permet aux ViT de modéliser les dépendances à longue portée sur une image, alors que les CNN sont limités aux champs réceptifs locaux.
  3. Flexibilité: Les ViT peuvent être affinés sur différentes tâches avec des changements architecturaux minimes, en s'appuyant sur des modèles pré-entraînés comme ImageNet.

Pour en savoir plus sur le fonctionnement des transformateurs, consulte le glossaire des transformateurs.

Applications des transformateurs de vision

Classification des images

Les ViTs excellent dans les tâches de classification d'images en utilisant leur capacité à capturer les caractéristiques globales de l'image. Les ViTs pré-entraînés comme le Vision Transformer de Googleont atteint une précision de pointe sur des critères de référence tels que ImageNet. Par exemple, les ViT sont utilisés dans le domaine de la santé pour classer les images médicales, ce qui facilite le diagnostic des maladies.

Explore les tâches de classification d'images avec les modèlesUltralytics YOLO .

Détection d'objets

Les ViT sont de plus en plus utilisés dans les pipelines de détection d'objets, remplaçant les dorsales traditionnelles basées sur la convolution. Des modèles comme DETR (DEtection TRansformer) démontrent l'efficacité des ViT dans la détection et la localisation d'objets sans s'appuyer sur des réseaux de proposition de régions.

Découvre les solutions de détection d'objets avec Ultralytics YOLO.

Segmentation d'images

En tirant parti de l'auto-attention, les ViT fournissent des solutions précises et efficaces pour la segmentation sémantique et par instance. Les applications comprennent la conduite autonome, où une segmentation précise au niveau du pixel est cruciale pour détecter les panneaux de signalisation, les piétons et les véhicules.

En savoir plus sur les tâches de segmentation dans la segmentation d'images.

Exemples concrets

  1. Santé: Les ViT sont employés dans l'imagerie médicale pour des tâches telles que la détection des tumeurs et la segmentation des organes. Leur capacité à analyser des images à haute résolution permet d'établir des diagnostics précoces et de planifier des traitements. Par exemple, les capacités d'imagerie médicale deUltralytics YOLO11 peuvent être améliorées grâce à des dorsales basées sur les ViT pour une plus grande précision.

  2. Véhicules autonomes: Les ViT alimentent les systèmes de vision des voitures autonomes, permettant la détection en temps réel des obstacles, des marquages de voies et des panneaux de signalisation. Leur connaissance du contexte global améliore la sécurité et la prise de décision.

Explore davantage d'applications de l'IA dans la conduite autonome avec les solutions d'IA de vision.

Défis et considérations

Bien que les ViTs offrent des avantages significatifs, ils s'accompagnent de défis :

  • Exigences en matière de données: Les ViT sont plus performants avec de grands ensembles de données, car leurs mécanismes d'auto-attention nécessitent de nombreuses données pour se généraliser efficacement.
  • Coûts informatiques: La formation des ViTs nécessite des ressources informatiques considérables en raison de leur complexité quadratique en matière d'auto-attention.

Pour résoudre ces problèmes, des approches telles que les modèles hybrides combinant les ViTs avec les CNNs et des techniques telles que la fusion de patchs ont été introduites pour rendre les ViTs plus efficaces.

Concepts apparentés

  • Transformateurs: Les ViT sont une application spécialisée des transformateurs, conçus à l'origine pour la PNL. En savoir plus sur les transformateurs.
  • L'auto-attention: Le mécanisme central des ViT qui leur permet de se concentrer sur différentes parties de l'image. Explore l'auto-attention pour mieux la comprendre.

Les ViT continuent de repousser les limites de la vision par ordinateur, offrant des solutions innovantes dans tous les secteurs d'activité. Avec des outils comme Ultralytics HUB, les développeurs peuvent explorer le potentiel des ViTs dans des applications réelles, ce qui simplifie le déploiement et la mise à l'échelle des solutions d'IA.

Tout lire