Découvre YOLO12, le dernier modèle de vision par ordinateur ! Apprends comment son architecture centrée sur l'attention et la technologie FlashAttention améliorent les tâches de détection d'objets dans tous les secteurs d'activité.
La vision par ordinateur est une branche de l'intelligence artificielle (IA) qui aide les machines à comprendre les images et les vidéos. C'est un domaine qui progresse à un rythme incroyable car les chercheurs et les développeurs en IA repoussent constamment les limites. La communauté de l'IA vise toujours à rendre les modèles plus rapides, plus intelligents et plus efficaces. L'une des dernières percées en date est YOLO12, le dernier né de la série de modèles YOLO (You Only Look Once), sorti le 18 février 2025.
YOLO12 a été développé par des chercheurs de l'Université de Buffalo, SUNY (State University of New York), et de l'Université de l'Académie chinoise des sciences. Dans une nouvelle approche unique, YOLO12 introduit des mécanismes d'attention, permettant au modèle de se concentrer sur les parties les plus essentielles d'une image plutôt que de tout traiter de manière égale.
Il est également doté de FlashAttention, une technique qui accélère le traitement tout en utilisant moins de mémoire, et d'un mécanisme d'attention par zone, conçu pour imiter la façon dont les humains se concentrent naturellement sur des objets centraux.
Grâce à ces améliorations, YOLO12n est 2,1 % plus précis que YOLOv10n et YOLO12m +1,0 % plus précis que YOLO11m. Cependant, cela implique un compromis : YOLO12n est 9 % plus lent que YOLOv10n, et YOLO12m est 3 % plus lent que YOLO11m.
Dans cet article, nous allons explorer ce qui rend YOLO12 différent, comment il se compare aux versions précédentes et où il peut être appliqué.
La série de modèlesYOLO est une collection de modèles de vision par ordinateur conçus pour la détection d'objets en temps réel, ce qui signifie qu'ils peuvent rapidement identifier et localiser des objets dans des images et des vidéos. Au fil du temps, chaque version s'est améliorée en termes de vitesse, de précision et d'efficacité.
Par exemple , Ultralytics YOLOv5publié en 2020, est devenu largement utilisé parce qu'il était rapide et facile à former sur mesure et à déployer. Plus tard , Ultralytics YOLOv8 l'a amélioré en offrant une prise en charge supplémentaire des tâches de vision par ordinateur telles que la segmentation d'instances et le suivi d'objets.
Plus récemment, Ultralytics YOLO11 s'est concentré sur l'amélioration du traitement en temps réel tout en maintenant un équilibre entre vitesse et précision. Par exemple, YOLO11m avait 22 % de paramètres en moins que YOLOv8m, tout en offrant de meilleures performances de détection sur l'ensemble de données COCO, une référence largement utilisée pour évaluer les modèles de détection d'objets.
S'appuyant sur ces avancées, YOLO12 introduit un changement dans la façon dont il traite les informations visuelles. Plutôt que de traiter toutes les parties d'une image de la même manière, il donne la priorité aux zones les plus pertinentes, ce qui améliore la précision de la détection. En termes simples, YOLO12 s'appuie sur les améliorations précédentes tout en visant à être plus précis.
YOLO12 apporte plusieurs améliorations qui permettent d'améliorer les tâches de vision par ordinateur tout en gardant intacte la vitesse de traitement en temps réel. Voici un aperçu des principales caractéristiques de YOLO12 :
Pour comprendre comment ces fonctions fonctionnent dans la vie réelle, considère un centre commercial. YOLO12 peut aider à suivre les clients, à identifier les décorations du magasin comme les plantes en pot ou les panneaux promotionnels, et à repérer les articles mal placés ou abandonnés.
Son architecture centrée sur l'attention lui permet de se concentrer sur les détails les plus importants, tandis que FlashAttention veille à ce qu'il traite tout rapidement sans surcharger le système. Il est ainsi plus facile pour les exploitants de centres commerciaux d'améliorer la sécurité, d'organiser l'agencement des magasins et d'améliorer l'expérience globale d'achat.
Cependant, YOLO12 s'accompagne également de certaines limitations à prendre en compte :
YOLO12 se décline en plusieurs variantes, chacune optimisée pour des besoins différents. Les versions plus petites (nano et small) donnent la priorité à la vitesse et à l'efficacité, ce qui les rend idéales pour les appareils mobiles et l'informatique de bord. Les versions moyennes et grandes trouvent un équilibre entre vitesse et précision, tandis que YOLO12x (extra large) est conçu pour les applications de haute précision, telles que l'automatisation industrielle, l'imagerie médicale et les systèmes de surveillance avancés.
Grâce à ces variantes, YOLO12 offre différents niveaux de performance en fonction de la taille du modèle. Les tests de référence montrent que certaines variantes de YOLO12 sont plus performantes que YOLOv10 et YOLO11 en termes de précision, atteignant une précision moyenne plus élevée (mAP).
Cependant, certains modèles, comme YOLO12m, YOLO12l et YOLO12x, traitent les images plus lentement que YOLO11, ce qui montre un compromis entre la précision de la détection et la vitesse. Malgré cela, YOLO12 reste efficace, car il nécessite moins de paramètres que de nombreux autres modèles, bien qu'il en utilise toujours plus que YOLO11. Cela en fait un excellent choix pour les applications où la précision est plus importante que la vitesse brute.
YOLO12 est pris en charge par le packageUltralytics Python et est facile à utiliser, ce qui le rend accessible aussi bien aux débutants qu'aux professionnels. Avec seulement quelques lignes de code, les utilisateurs peuvent charger des modèles pré-entraînés, exécuter diverses tâches de vision par ordinateur sur des images et des vidéos, et également entraîner YOLO12 sur des ensembles de données personnalisés. Le package Ultralytics Python rationalise le processus, en éliminant le besoin d'étapes de configuration complexes.
Par exemple, voici les étapes à suivre pour utiliser YOLO12 pour la détection d'objets:
Ces étapes rendent YOLO12 facile à utiliser pour une variété d'applications, de la surveillance et du suivi des détaillants à l'imagerie médicale et aux véhicules autonomes.
YOLO12 peut être utilisé dans une variété d'applications du monde réel grâce à sa prise en charge de la détection d'objets, de la segmentation d'instances, de la classification d'images, de l'estimation de la pose et de la détection d'objets orientés (OBB).
Cependant, comme nous l'avons évoqué précédemment, les modèles YOLO12 privilégient la précision à la vitesse, ce qui signifie qu'ils mettent un peu plus de temps à traiter les images par rapport aux versions précédentes. Ce compromis rend YOLO12 idéal pour les applications où la précision est plus importante que la vitesse en temps réel, telles que :
Avant d'exécuter YOLO12, il est important de s'assurer que ton système répond aux exigences nécessaires.
Techniquement, YOLO12 peut fonctionner sur n'importe quel GPU (Graphics Processing Unit) dédié. Par défaut, il ne nécessite pas FlashAttention, il peut donc fonctionner sur la plupart des systèmes GPU sans cela. Cependant, l'activation de FlashAttention peut s'avérer particulièrement utile lorsque l'on travaille avec de grands ensembles de données ou des images à haute résolution, car elle permet d'éviter les ralentissements, de réduire l'utilisation de la mémoire et d'améliorer l'efficacité du traitement.
Pour utiliser FlashAttention, tu as besoin d'unGPU NVIDIA de l'une de ces séries : Turing (T4, Quadro RTX), Ampere (série RTX 30, A30, A40, A100), Ada Lovelace (série RTX 40), ou Hopper (H100, H200).
En gardant à l'esprit la convivialité et l'accessibilité, le package Ultralytics Python ne prend pas encore en charge l'inférence FlashAttention, car son installation peut être assez complexe d'un point de vue technique. Pour en savoir plus sur la façon de démarrer avec YOLO12 et d'optimiser ses performances, consulte la documentation officielle d'Ultralytics .
À mesure que la vision par ordinateur progresse, les modèles deviennent plus précis et plus efficaces. YOLO12 améliore les tâches de vision par ordinateur telles que la détection d'objets, la segmentation d'instances et la classification d'images grâce au traitement centré sur l'attention et à FlashAttention, améliorant ainsi la précision tout en optimisant l'utilisation de la mémoire.
Parallèlement, la vision par ordinateur est plus accessible que jamais. YOLO12 est facile à utiliser grâce au packagePython Ultralytics et, en privilégiant la précision à la vitesse, il est bien adapté à l'imagerie médicale, aux inspections industrielles et à la robotique - des applications où la précision est essentielle.
Curieux de l'IA ? Visite notre dépôt GitHub et engage-toi auprès de notre communauté. Explore les innovations dans des secteurs comme l'IA dans les voitures auto-conduites et la vision par ordinateur dans l'agriculture sur nos pages de solutions. Découvre nos options de licence et donne vie à tes projets de vision artificielle. 🚀
Commence ton voyage avec le futur de l'apprentissage automatique.