Contrôle vert
Lien copié dans le presse-papiers

L'évolution de la détection d'objets et Ultralytics'YOLO Modèles

Rejoins-nous pour un retour sur l'évolution de la détection d'objets. Nous nous concentrerons sur la façon dont les modèles YOLO (You Only Look Once) ont progressé ces dernières années.

La vision par ordinateur est un sous-domaine de l'intelligence artificielle (IA) qui s'attache à enseigner aux machines à voir et à comprendre les images et les vidéos, de la même manière que les humains perçoivent le monde réel. Si la reconnaissance d'objets ou l'identification d'actions est une seconde nature pour les humains, ces tâches nécessitent des techniques de vision par ordinateur spécifiques et spécialisées lorsqu'il s'agit de machines. Par exemple, l'une des tâches clés de la vision par ordinateur est la détection d'objets, qui consiste à identifier et à localiser des objets dans des images ou des vidéos. 

Depuis les années 1960, les chercheurs s'efforcent d'améliorer la façon dont les ordinateurs peuvent détecter les objets. Les premières méthodes, comme la correspondance des modèles, consistaient à faire glisser un modèle prédéfini sur une image pour trouver des correspondances. Bien qu'innovantes, ces approches avaient du mal à gérer les changements de taille, d'orientation et d'éclairage des objets. Aujourd'hui, nous disposons de modèles avancés tels que Ultralytics YOLO11 qui peuvent détecter même des objets petits et partiellement cachés, connus sous le nom d'objets occultés, avec une précision impressionnante.

Alors que la vision par ordinateur continue d'évoluer, il est important de revenir sur la façon dont ces technologies se sont développées. Dans cet article, nous allons explorer l'évolution de la détection d'objets et mettre en lumière la transformation des modèlesYOLO (You Only Look Once). C'est parti !

Les origines de la vision par ordinateur

Avant de nous plonger dans la détection d'objets, voyons comment la vision par ordinateur a vu le jour. Les origines de la vision par ordinateur remontent à la fin des années 1950 et au début des années 1960, lorsque les scientifiques ont commencé à explorer la façon dont le cerveau traite les informations visuelles. Lors d'expériences menées sur des chats, les chercheurs David Hubel et Torsten Wiesel ont découvert que le cerveau réagissait à des motifs simples tels que les bords et les lignes. C'est ainsi qu'est née l'idée de l'extraction de caractéristiques, selon laquelle les systèmes visuels détectent et reconnaissent les caractéristiques de base des images, telles que les bords, avant de passer à des motifs plus complexes.

Fig 1. Apprendre comment le cerveau d'un chat réagit aux barres lumineuses a permis de développer l'extraction de caractéristiques dans la vision par ordinateur.

À peu près à la même époque, une nouvelle technologie est apparue, capable de transformer des images physiques en formats numériques, suscitant l'intérêt pour la façon dont les machines pourraient traiter les informations visuelles. En 1966, le projet Summer Vision du Massachusetts Institute of Technology (MIT) a poussé les choses plus loin. Bien que le projet n'ait pas complètement abouti, il visait à créer un système capable de séparer le premier plan de l'arrière-plan dans les images. Pour de nombreux membres de la communauté Vision AI, ce projet marque le début officiel de la vision par ordinateur en tant que domaine scientifique.

Comprendre l'histoire de la détection d'objets

À mesure que la vision par ordinateur progressait à la fin des années 1990 et au début des années 2000, les méthodes de détection d'objets sont passées de techniques de base telles que la correspondance de modèles à des approches plus avancées. L'une des méthodes les plus populaires est la cascade de Haar, qui a été largement utilisée pour des tâches telles que la détection des visages. Elle fonctionne en balayant les images avec une fenêtre coulissante, en vérifiant la présence de caractéristiques spécifiques telles que les bords ou les textures dans chaque section de l'image, puis en combinant ces caractéristiques pour détecter des objets tels que les visages. Haar Cascade était beaucoup plus rapide que les méthodes précédentes.

Fig 2. Utilisation de la cascade de Haar pour la détection des visages.

Parallèlement, des méthodes telles que l'histogramme des gradients orientés (HOG) et les machines à vecteurs de support (SVM) ont également été introduites. Le HOG utilise la technique de la fenêtre coulissante pour analyser la façon dont la lumière et les ombres changent dans de petites sections d'une image, ce qui permet d'identifier les objets en fonction de leurs formes. Les SVM classent ensuite ces caractéristiques pour déterminer l'identité de l'objet. Ces méthodes amélioraient la précision mais restaient difficiles à utiliser dans des environnements réels et étaient plus lentes que les techniques actuelles.

La nécessité d'une détection d'objets en temps réel

Dans les années 2010, l'essor de l'apprentissage profond et des réseaux neuronaux convolutifs (CNN) a apporté un changement majeur dans la détection d'objets. Les CNN ont permis aux ordinateurs d'apprendre automatiquement des caractéristiques importantes à partir de grandes quantités de données, ce qui a rendu la détection beaucoup plus précise. 

Les premiers modèles comme le R-CNN (réseaux neuronaux convolutionnels basés sur les régions) ont constitué une grande amélioration en termes de précision, en aidant à identifier les objets avec plus d'exactitude que les anciennes méthodes. 

Cependant, ces modèles étaient lents car ils traitaient les images en plusieurs étapes, ce qui les rendait peu pratiques pour les applications en temps réel dans des domaines tels que les voitures auto-conduites ou la vidéosurveillance.

Dans le but d'accélérer les choses, des modèles plus efficaces ont été développés. Des modèles comme Fast R-CNN et Faster R-CNN ont permis d'affiner la façon dont les régions d'intérêt étaient choisies et de réduire le nombre d'étapes nécessaires à la détection. Bien que ces modèles aient accéléré la détection des objets, ils n'étaient toujours pas assez rapides pour les nombreuses applications du monde réel qui nécessitaient des résultats instantanés. La demande croissante de détection en temps réel a poussé au développement de solutions encore plus rapides et plus efficaces, capables de concilier vitesse et précision.

Fig 3. Comparaison des vitesses de R-CNN, R-CNN rapide et R-CNN plus rapide.

YOLO Modèles (On ne se ressemble qu'une fois) : Une étape importante

YOLO est un modèle de détection d'objets qui a redéfini la vision par ordinateur en permettant la détection en temps réel de plusieurs objets dans des images et des vidéos, ce qui le rend tout à fait unique par rapport aux méthodes de détection précédentes. Au lieu d'analyser chaque objet détecté individuellement, l'architecture deYOLO traite la détection d'objets comme une tâche unique, prédisant à la fois l'emplacement et la classe des objets en une seule fois à l'aide de CNN. 

Le modèle fonctionne en divisant une image en une grille, chaque partie étant chargée de détecter les objets dans sa zone respective. Il fait plusieurs prédictions pour chaque section et filtre les résultats les moins sûrs, en ne gardant que ceux qui sont exacts. 

Fig 4. Aperçu du fonctionnement de YOLO .

L'introduction de YOLO dans les applications de vision par ordinateur a rendu la détection d'objets beaucoup plus rapide et efficace que les modèles précédents. En raison de sa vitesse et de sa précision, YOLO est rapidement devenu un choix populaire pour les solutions en temps réel dans des secteurs tels que la fabrication, la santé et la robotique.

Un autre point important à noter est que, comme YOLO était un logiciel libre, les développeurs et les chercheurs ont pu l'améliorer continuellement, ce qui a conduit à des versions encore plus avancées.

Le chemin de YOLO à YOLO11

YOLO ont été régulièrement améliorés au fil du temps, en s'appuyant sur les avancées de chaque version. Outre de meilleures performances, ces améliorations ont rendu les modèles plus faciles à utiliser pour les personnes ayant différents niveaux d'expérience technique.

Par exemple, lorsque Ultralytics YOLOv5 a été introduit, le déploiement des modèles est devenu plus simple avec PyTorchpermettant à un plus grand nombre d'utilisateurs de travailler avec l'IA avancée. Il a réuni précision et convivialité, donnant à un plus grand nombre de personnes la possibilité de mettre en œuvre la détection d'objets sans avoir besoin d'être des experts en codage.

Fig 5. L'évolution des modèles YOLO .

Ultralytics YOLOv8 a poursuivi ces progrès en ajoutant la prise en charge de tâches telles que la segmentation des instances et en rendant les modèles plus flexibles. Il est devenu plus facile d'utiliser YOLO pour des applications de base ou plus complexes, ce qui le rend utile dans toute une série de scénarios.

Avec le dernier modèle, Ultralytics YOLO11de nouvelles optimisations ont été apportées. En réduisant le nombre de paramètres tout en améliorant la précision, il est désormais plus efficace pour les tâches en temps réel. Que tu sois un développeur expérimenté ou novice en matière d'IA, YOLO11 propose une approche avancée de la détection d'objets qui est facilement accessible.

Apprendre à connaître YOLO11: Nouvelles fonctionnalités et améliorations

YOLO11Lancé lors de l'événement hybride annuel Ultralytics', YOLO Vision 2024 (YV24), ce nouveau modèle prend en charge les mêmes tâches de vision par ordinateur que YOLOv8, comme la détection d'objets, la segmentation d'instances, la classification d'images et l'estimation de la pose. Les utilisateurs peuvent donc facilement passer à ce nouveau modèle sans avoir besoin d'ajuster leurs flux de travail. De plus, l'architecture améliorée de YOLO11rend les prédictions encore plus précises. En fait, YOLO11m atteint une précision moyenne plus élevée (mAP) sur l'ensemble de données COCO avec 22 % de paramètres en moins que YOLOv8m.

YOLO11 est également conçu pour fonctionner efficacement sur toute une gamme de plateformes, des smartphones et autres appareils périphériques aux systèmes cloud plus puissants. Cette flexibilité garantit des performances fluides sur différentes configurations matérielles pour les applications en temps réel. De plus, YOLO11 est plus rapide et plus efficace, ce qui permet de réduire les coûts de calcul et d'accélérer les temps d'inférence. Que tu utilises le paquetUltralytics Python ou le HUB Ultralytics sans code, il est facile à intégrer dans tes flux de travail existants. YOLO11 dans tes flux de travail existants.

L'avenir des modèles YOLO et de la détection d'objets

L'impact de la détection avancée d'objets sur les applications en temps réel et l'IA de pointe se fait déjà sentir dans tous les secteurs. Alors que des secteurs comme le pétrole et le gaz, la santé et le commerce de détail s'appuient de plus en plus sur l'IA, la demande de détection d'objets rapide et précise continue d'augmenter. YOLO11 vise à répondre à cette demande en permettant une détection haute performance, même sur des appareils dont la puissance de calcul est limitée. 

À mesure que l'edge AI se développe, il est probable que les modèles de détection d'objets tels que YOLO11 deviendront encore plus essentiels pour la prise de décision en temps réel dans les environnements où la vitesse et la précision sont essentielles. Grâce aux améliorations constantes en matière de conception et d'adaptabilité, l'avenir de la détection d'objets semble promis à encore plus d'innovations dans une grande variété d'applications.

Principaux enseignements

La détection d'objets a parcouru un long chemin, évoluant de méthodes simples aux techniques avancées d'apprentissage profond que nous connaissons aujourd'hui. Les modèles YOLO ont été au cœur de ces progrès, offrant une détection en temps réel plus rapide et plus précise dans différents secteurs. YOLO11 s'appuie sur cet héritage, améliorant l'efficacité, réduisant les coûts de calcul et améliorant la précision, ce qui en fait un choix fiable pour une variété d'applications en temps réel. Avec les progrès continus de l'IA et de la vision par ordinateur, l'avenir de la détection d'objets semble prometteur, avec des possibilités d'amélioration encore plus grandes en termes de vitesse, de précision et d'adaptabilité.

Curieux de l'IA ? Reste connecté à notre communauté pour continuer à apprendre ! Consulte notre dépôt GitHub pour découvrir comment nous utilisons l'IA pour créer des solutions innovantes dans des secteurs comme la fabrication et la santé. 🚀

Logo FacebookLogo de TwitterLogo LinkedInSymbole du lien de copie

Lire la suite dans cette catégorie

Construisons ensemble le futur
de l'IA !

Commence ton voyage avec le futur de l'apprentissage automatique.