Contrôle vert
Lien copié dans le presse-papiers

YOLO12 expliqué : Applications et cas d'utilisation dans le monde réel

Découvre YOLO12, le dernier modèle de vision par ordinateur ! Apprends comment son architecture centrée sur l'attention et la technologie FlashAttention améliorent les tâches de détection d'objets dans tous les secteurs d'activité.

La vision par ordinateur est une branche de l'intelligence artificielle (IA) qui aide les machines à comprendre les images et les vidéos. C'est un domaine qui progresse à un rythme incroyable car les chercheurs et les développeurs en IA repoussent constamment les limites. La communauté de l'IA vise toujours à rendre les modèles plus rapides, plus intelligents et plus efficaces. L'une des dernières percées en date est YOLO12, le dernier né de la série de modèles YOLO (You Only Look Once), sorti le 18 février 2025.

YOLO12 a été développé par des chercheurs de l'Université de Buffalo, SUNY (State University of New York), et de l'Université de l'Académie chinoise des sciences. Dans une nouvelle approche unique, YOLO12 introduit des mécanismes d'attention, permettant au modèle de se concentrer sur les parties les plus essentielles d'une image plutôt que de tout traiter de manière égale. 

Il est également doté de FlashAttention, une technique qui accélère le traitement tout en utilisant moins de mémoire, et d'un mécanisme d'attention par zone, conçu pour imiter la façon dont les humains se concentrent naturellement sur des objets centraux.

Grâce à ces améliorations, YOLO12n est 2,1 % plus précis que YOLOv10n et YOLO12m +1,0 % plus précis que YOLO11m. Cependant, cela implique un compromis : YOLO12n est 9 % plus lent que YOLOv10n, et YOLO12m est 3 % plus lent que YOLO11m.

Fig 1. Exemple d'utilisation de YOLO12 pour détecter des objets.

Dans cet article, nous allons explorer ce qui rend YOLO12 différent, comment il se compare aux versions précédentes et où il peut être appliqué.

Le chemin vers la sortie de YOLO12

La série de modèlesYOLO est une collection de modèles de vision par ordinateur conçus pour la détection d'objets en temps réel, ce qui signifie qu'ils peuvent rapidement identifier et localiser des objets dans des images et des vidéos. Au fil du temps, chaque version s'est améliorée en termes de vitesse, de précision et d'efficacité.

Par exemple , Ultralytics YOLOv5publié en 2020, est devenu largement utilisé parce qu'il était rapide et facile à former sur mesure et à déployer. Plus tard , Ultralytics YOLOv8 l'a amélioré en offrant une prise en charge supplémentaire des tâches de vision par ordinateur telles que la segmentation d'instances et le suivi d'objets. 

Plus récemment, Ultralytics YOLO11 s'est concentré sur l'amélioration du traitement en temps réel tout en maintenant un équilibre entre vitesse et précision. Par exemple, YOLO11m avait 22 % de paramètres en moins que YOLOv8m, tout en offrant de meilleures performances de détection sur l'ensemble de données COCO, une référence largement utilisée pour évaluer les modèles de détection d'objets.

S'appuyant sur ces avancées, YOLO12 introduit un changement dans la façon dont il traite les informations visuelles. Plutôt que de traiter toutes les parties d'une image de la même manière, il donne la priorité aux zones les plus pertinentes, ce qui améliore la précision de la détection. En termes simples, YOLO12 s'appuie sur les améliorations précédentes tout en visant à être plus précis.

Caractéristiques principales de YOLO12

YOLO12 apporte plusieurs améliorations qui permettent d'améliorer les tâches de vision par ordinateur tout en gardant intacte la vitesse de traitement en temps réel. Voici un aperçu des principales caractéristiques de YOLO12 :

  • Architecture centrée sur l'attention: Au lieu de traiter toutes les parties d'une image de la même manière, YOLO12 se concentre sur les zones les plus importantes. Cela améliore la précision et réduit les traitements inutiles, rendant la détection plus nette et plus efficace, même dans les images encombrées.
  • FlashAttention : YOLO12 accélère l'analyse des images tout en utilisant moins de mémoire. Grâce à FlashAttention (un algorithme économe en mémoire), il optimise le traitement des données, ce qui réduit la sollicitation du matériel et rend les tâches en temps réel plus fluides et plus fiables.
  • Réseaux d'agrégation de couches efficaces résiduelles (R-ELAN): YOLO12 organise ses couches plus efficacement à l'aide de R-ELAN, ce qui améliore la façon dont le modèle traite et apprend des données. L'apprentissage est ainsi plus stable, la reconnaissance des objets plus précise et les exigences informatiques plus faibles, ce qui lui permet de fonctionner efficacement dans différents environnements.

Pour comprendre comment ces fonctions fonctionnent dans la vie réelle, considère un centre commercial. YOLO12 peut aider à suivre les clients, à identifier les décorations du magasin comme les plantes en pot ou les panneaux promotionnels, et à repérer les articles mal placés ou abandonnés. 

Son architecture centrée sur l'attention lui permet de se concentrer sur les détails les plus importants, tandis que FlashAttention veille à ce qu'il traite tout rapidement sans surcharger le système. Il est ainsi plus facile pour les exploitants de centres commerciaux d'améliorer la sécurité, d'organiser l'agencement des magasins et d'améliorer l'expérience globale d'achat.

Fig 2. Détection d'objets dans un centre commercial à l'aide de YOLO12.

Cependant, YOLO12 s'accompagne également de certaines limitations à prendre en compte :

  • Temps de formation plus lent : En raison de son architecture, YOLO12 nécessite plus de temps de formation par rapport à YOLO11.
  • Difficultés d'exportation: Certains utilisateurs peuvent rencontrer des difficultés lors de l'exportation des modèles YOLO12, notamment lorsqu'ils les intègrent dans des environnements de déploiement spécifiques.

Comprendre les critères de performance de YOLO12

YOLO12 se décline en plusieurs variantes, chacune optimisée pour des besoins différents. Les versions plus petites (nano et small) donnent la priorité à la vitesse et à l'efficacité, ce qui les rend idéales pour les appareils mobiles et l'informatique de bord. Les versions moyennes et grandes trouvent un équilibre entre vitesse et précision, tandis que YOLO12x (extra large) est conçu pour les applications de haute précision, telles que l'automatisation industrielle, l'imagerie médicale et les systèmes de surveillance avancés.

Grâce à ces variantes, YOLO12 offre différents niveaux de performance en fonction de la taille du modèle. Les tests de référence montrent que certaines variantes de YOLO12 sont plus performantes que YOLOv10 et YOLO11 en termes de précision, atteignant une précision moyenne plus élevée (mAP). 

Cependant, certains modèles, comme YOLO12m, YOLO12l et YOLO12x, traitent les images plus lentement que YOLO11, ce qui montre un compromis entre la précision de la détection et la vitesse. Malgré cela, YOLO12 reste efficace, car il nécessite moins de paramètres que de nombreux autres modèles, bien qu'il en utilise toujours plus que YOLO11. Cela en fait un excellent choix pour les applications où la précision est plus importante que la vitesse brute.

Fig 3. Comparaison des Ultralytics YOLO11 et YOLO12.

Utiliser YOLO12 avec le logiciel Ultralytics Python

YOLO12 est pris en charge par le packageUltralytics Python et est facile à utiliser, ce qui le rend accessible aussi bien aux débutants qu'aux professionnels. Avec seulement quelques lignes de code, les utilisateurs peuvent charger des modèles pré-entraînés, exécuter diverses tâches de vision par ordinateur sur des images et des vidéos, et également entraîner YOLO12 sur des ensembles de données personnalisés. Le package Ultralytics Python rationalise le processus, en éliminant le besoin d'étapes de configuration complexes.

Par exemple, voici les étapes à suivre pour utiliser YOLO12 pour la détection d'objets:

  • Installe le paquetage Ultralytics : Commence par installer le package Ultralytics Python , qui fournit les outils nécessaires pour faire fonctionner YOLO12 de manière efficace. Cela permet de s'assurer que toutes les dépendances sont correctement configurées.
  • Charge un modèle YOLO12 pré-entraîné : Choisis la variante YOLO12 appropriée (nano, petite, moyenne, grande ou extra grande) en fonction du niveau de précision et de la vitesse requis pour ta tâche.
  • Fournis une image ou une vidéo : Saisis un fichier image ou vidéo que tu veux analyser. YOLO12 peut également traiter des flux vidéo en direct pour une détection en temps réel.
  • Exécute le processus de détection : Le modèle scanne les données visuelles, identifie les objets et place des boîtes englobantes autour d'eux. Il étiquette chaque objet détecté avec sa classe prédite et son score de confiance.
  • Ajuste les paramètres de détection : Tu peux aussi modifier des paramètres tels que les seuils de confiance pour affiner la précision et les performances de la détection.
  • Sauvegarde ou utilise le résultat : L'image ou la vidéo traitée, qui contient maintenant les objets détectés, peut être sauvegardée ou intégrée dans une application pour une analyse plus poussée, une automatisation ou une prise de décision.

Ces étapes rendent YOLO12 facile à utiliser pour une variété d'applications, de la surveillance et du suivi des détaillants à l'imagerie médicale et aux véhicules autonomes.

Applications pratiques de YOLO12

YOLO12 peut être utilisé dans une variété d'applications du monde réel grâce à sa prise en charge de la détection d'objets, de la segmentation d'instances, de la classification d'images, de l'estimation de la pose et de la détection d'objets orientés (OBB). 

Fig 4. YOLO12 prend en charge des tâches telles que la détection d'objets et la segmentation d'instances.

Cependant, comme nous l'avons évoqué précédemment, les modèles YOLO12 privilégient la précision à la vitesse, ce qui signifie qu'ils mettent un peu plus de temps à traiter les images par rapport aux versions précédentes. Ce compromis rend YOLO12 idéal pour les applications où la précision est plus importante que la vitesse en temps réel, telles que :

  • Imagerie médicale: YOLO12 peut être entraîné sur mesure à détecter les tumeurs ou les anomalies dans les radiographies et les IRM avec une grande précision, ce qui en fait un outil utile pour les médecins et les radiologues qui ont besoin d'une analyse d'image précise pour établir un diagnostic.
  • Contrôle de la qualité dans la fabrication: Il peut aider à identifier les défauts des produits pendant le processus de production, ce qui permet de s'assurer que seuls les articles de haute qualité arrivent sur le marché tout en réduisant les déchets et en améliorant l'efficacité.
  • Analyse médico-légale: Les forces de l'ordre peuvent peaufiner YOLO12 pour analyser les séquences de surveillance et recueillir des preuves. Dans les enquêtes criminelles, la précision est essentielle pour identifier les détails clés.
  • Agriculture de précision: Les agriculteurs peuvent utiliser YOLO12 pour analyser la santé des cultures, détecter les maladies ou les infestations de parasites, et surveiller l'état des sols. Des évaluations précises permettent d'optimiser les stratégies agricoles, ce qui se traduit par un meilleur rendement et une meilleure gestion des ressources.

Commencer avec YOLO12

Avant d'exécuter YOLO12, il est important de s'assurer que ton système répond aux exigences nécessaires.

Techniquement, YOLO12 peut fonctionner sur n'importe quel GPU (Graphics Processing Unit) dédié. Par défaut, il ne nécessite pas FlashAttention, il peut donc fonctionner sur la plupart des systèmes GPU sans cela. Cependant, l'activation de FlashAttention peut s'avérer particulièrement utile lorsque l'on travaille avec de grands ensembles de données ou des images à haute résolution, car elle permet d'éviter les ralentissements, de réduire l'utilisation de la mémoire et d'améliorer l'efficacité du traitement. 

Pour utiliser FlashAttention, tu as besoin d'unGPU NVIDIA de l'une de ces séries : Turing (T4, Quadro RTX), Ampere (série RTX 30, A30, A40, A100), Ada Lovelace (série RTX 40), ou Hopper (H100, H200).

En gardant à l'esprit la convivialité et l'accessibilité, le package Ultralytics Python ne prend pas encore en charge l'inférence FlashAttention, car son installation peut être assez complexe d'un point de vue technique. Pour en savoir plus sur la façon de démarrer avec YOLO12 et d'optimiser ses performances, consulte la documentation officielle d'Ultralytics .

Principaux enseignements

À mesure que la vision par ordinateur progresse, les modèles deviennent plus précis et plus efficaces. YOLO12 améliore les tâches de vision par ordinateur telles que la détection d'objets, la segmentation d'instances et la classification d'images grâce au traitement centré sur l'attention et à FlashAttention, améliorant ainsi la précision tout en optimisant l'utilisation de la mémoire.

Parallèlement, la vision par ordinateur est plus accessible que jamais. YOLO12 est facile à utiliser grâce au packagePython Ultralytics et, en privilégiant la précision à la vitesse, il est bien adapté à l'imagerie médicale, aux inspections industrielles et à la robotique - des applications où la précision est essentielle.

Curieux de l'IA ? Visite notre dépôt GitHub et engage-toi auprès de notre communauté. Explore les innovations dans des secteurs comme l'IA dans les voitures auto-conduites et la vision par ordinateur dans l'agriculture sur nos pages de solutions. Découvre nos options de licence et donne vie à tes projets de vision artificielle. 🚀

Logo FacebookLogo de TwitterLogo LinkedInSymbole du lien de copie

Lire la suite dans cette catégorie

Construisons ensemble le futur
de l'IA !

Commence ton voyage avec le futur de l'apprentissage automatique.