Découvre comment les transformateurs de vision (ViT) révolutionnent la vision par ordinateur grâce à l'auto-attention, en excellant dans les tâches de classification, de détection et de segmentation.
Les transformateurs de vision (ViT) ont révolutionné la vision par ordinateur en introduisant des architectures basées sur des transformateurs traditionnellement utilisées dans le traitement du langage naturel (NLP) pour les tâches de vision. Contrairement aux réseaux neuronaux convolutifs (CNN), qui reposent sur des opérations de convolution, les ViT utilisent des mécanismes d'auto-attention pour analyser et traiter les données d'image, offrant ainsi une approche plus souple et plus évolutive pour relever divers défis en matière de vision.
Les ViTs divisent une image d'entrée en parcelles de taille fixe, les aplatissent et traitent chaque parcelle comme un "jeton", similaire aux mots dans le NLP. Ces jetons sont ensuite intégrés dans des vecteurs à haute dimension et passent par plusieurs couches d'encodeurs transformateurs, où des mécanismes d'auto-attention permettent au modèle de se concentrer sur les parties pertinentes de l'image. Cette structure permet aux ViT de capturer efficacement les dépendances locales et globales.
Les ViT s'appuient sur les encodages positionnels pour conserver les informations spatiales, un aspect essentiel des données d'image dont les transformateurs traditionnels sont dépourvus. En apprenant les relations entre les patchs, les ViTs peuvent atteindre des performances de pointe dans des tâches telles que la classification d'images, la détection d'objets et la segmentation.
Pour en savoir plus sur le fonctionnement des transformateurs, consulte le glossaire des transformateurs.
Les ViTs excellent dans les tâches de classification d'images en utilisant leur capacité à capturer les caractéristiques globales de l'image. Les ViTs pré-entraînés comme le Vision Transformer de Googleont atteint une précision de pointe sur des critères de référence tels que ImageNet. Par exemple, les ViT sont utilisés dans le domaine de la santé pour classer les images médicales, ce qui facilite le diagnostic des maladies.
Explore les tâches de classification d'images avec les modèlesUltralytics YOLO .
Les ViT sont de plus en plus utilisés dans les pipelines de détection d'objets, remplaçant les dorsales traditionnelles basées sur la convolution. Des modèles comme DETR (DEtection TRansformer) démontrent l'efficacité des ViT dans la détection et la localisation d'objets sans s'appuyer sur des réseaux de proposition de régions.
Découvre les solutions de détection d'objets avec Ultralytics YOLO.
En tirant parti de l'auto-attention, les ViT fournissent des solutions précises et efficaces pour la segmentation sémantique et par instance. Les applications comprennent la conduite autonome, où une segmentation précise au niveau du pixel est cruciale pour détecter les panneaux de signalisation, les piétons et les véhicules.
En savoir plus sur les tâches de segmentation dans la segmentation d'images.
Santé: Les ViT sont employés dans l'imagerie médicale pour des tâches telles que la détection des tumeurs et la segmentation des organes. Leur capacité à analyser des images à haute résolution permet d'établir des diagnostics précoces et de planifier des traitements. Par exemple, les capacités d'imagerie médicale deUltralytics YOLO11 peuvent être améliorées grâce à des dorsales basées sur les ViT pour une plus grande précision.
Véhicules autonomes: Les ViT alimentent les systèmes de vision des voitures autonomes, permettant la détection en temps réel des obstacles, des marquages de voies et des panneaux de signalisation. Leur connaissance du contexte global améliore la sécurité et la prise de décision.
Explore davantage d'applications de l'IA dans la conduite autonome avec les solutions d'IA de vision.
Bien que les ViTs offrent des avantages significatifs, ils s'accompagnent de défis :
Pour résoudre ces problèmes, des approches telles que les modèles hybrides combinant les ViTs avec les CNNs et des techniques telles que la fusion de patchs ont été introduites pour rendre les ViTs plus efficaces.
Les ViT continuent de repousser les limites de la vision par ordinateur, offrant des solutions innovantes dans tous les secteurs d'activité. Avec des outils comme Ultralytics HUB, les développeurs peuvent explorer le potentiel des ViTs dans des applications réelles, ce qui simplifie le déploiement et la mise à l'échelle des solutions d'IA.