Explorer le fonctionnement des applications de la vision par ordinateur

Plonge avec nous dans les applications de la vision par ordinateur. Nous aborderons également diverses tâches de vision par ordinateur telles que la détection et la segmentation d'objets.

Écrit par

Abirami Vina

min lire

9 août 2024

13 avril 2025

Qu'est-ce que la vision par ordinateur ?

Les modèles de vision soutiennent diverses tâches de vision par ordinateur

Classification des images

Détection d'objets

Segmentation sémantique et par instance

Estimation de la pose

Boîtes de délimitation orientées détection d'objets

Suivi des objets

Un dernier regard sur la vision par ordinateur

Lorsque nous avons exploré l'histoire des modèles de vision par ordinateur, nous avons vu comment la vision par ordinateur a évolué et le chemin qui a mené aux modèles de vision avancés dont nous disposons aujourd'hui. Les modèles modernes comme Ultralytics YOLOv8 prennent en charge de multiples tâches de vision par ordinateur et sont utilisés dans diverses applications passionnantes.

Dans cet article, nous allons examiner les bases de la vision par ordinateur et des modèles de vision. Nous aborderons leur fonctionnement et leurs diverses applications dans différents secteurs d'activité. Les innovations en matière de vision par ordinateur sont partout et façonnent silencieusement notre monde. Découvrons-les une à une !

Qu'est-ce que la vision par ordinateur ?

L'intelligence artificielle (IA) est un terme générique qui englobe de nombreuses technologies visant à reproduire une partie de l'intelligence humaine. L'un de ces sous-domaines de l'IA est la vision par ordinateur. La vision par ordinateur consiste à doter les machines d'yeux capables de voir, d'observer et de comprendre leur environnement.

Tout comme la vision humaine, les solutions de vision par ordinateur visent à distinguer les objets, à calculer les distances et à détecter les mouvements. Cependant, contrairement aux humains, qui ont toute une vie d'expériences pour les aider à voir et à comprendre, les ordinateurs s'appuient sur de grandes quantités de données, des caméras haute définition et des algorithmes complexes.

__wf_reserved_inherit — Fig 1. Comparaison entre la vision humaine et la vision par ordinateur.

‍

Les systèmes de vision par ordinateur peuvent traiter et analyser des données visuelles telles que des images et des vidéos à des vitesses et avec une précision incroyables. La capacité d'analyser rapidement et avec précision de grandes quantités d'informations visuelles fait de la vision par ordinateur un outil puissant dans diverses industries, allant de la fabrication aux soins de santé.

Les modèles de vision soutiennent diverses tâches de vision par ordinateur

Les modèles de vision par ordinateur sont au cœur de toute application de vision par ordinateur. Il s'agit essentiellement d'algorithmes informatiques alimentés par des techniques d'apprentissage profond conçues pour donner aux machines la capacité d'interpréter et de comprendre les informations visuelles. Les modèles de vision permettent d'effectuer des tâches cruciales de vision par ordinateur, allant de la classification d'images à la détection d'objets. Examinons de plus près certaines de ces tâches et leurs cas d'utilisation plus en détail.

Classification des images

La classification des images consiste à classer et à étiqueter les images dans des classes ou des catégories prédéfinies. Un modèle de vision comme YOLOv8 peut être entraîné sur de grands ensembles de données d ' images étiquetées. Au cours de la formation, le modèle apprend à reconnaître les modèles et les caractéristiques associés à chaque classe. Une fois formé, il peut prédire la catégorie de nouvelles images inédites en analysant leurs caractéristiques et en les comparant aux modèles appris.

‍

Il existe différents types de classification d'images. Par exemple, lorsqu'il s'agit d'images médicales, tu peux utiliser la classification binaire pour diviser les images en deux groupes, comme les images saines ou les images malades. La classification multiclasse est un autre type de classification. Elle permet de classer les images en plusieurs groupes, par exemple en classant les différents animaux d'une ferme comme les cochons, les chèvres et les vaches. Ou bien, disons que tu veux classer les animaux en groupes et sous-groupes, comme classer les animaux en mammifères et en oiseaux, puis en espèces telles que les lions, les tigres, les aigles et les moineaux ; la classification hiérarchique serait la meilleure option.

Détection d'objets

La détection d'objets est le processus d'identification et de localisation d'objets dans des images et des trames vidéo à l'aide de la vision par ordinateur. Elle se compose de deux tâches : la localisation des objets, qui dessine des boîtes de délimitation autour des objets, et la classification des objets, qui identifie la catégorie de chaque objet. En se basant sur les annotations des boîtes englobantes, un modèle de vision peut apprendre à reconnaître des modèles et des caractéristiques spécifiques à chaque catégorie d'objet et à prédire la présence et l'emplacement de ces objets dans de nouvelles images inédites.

‍

La détection d'objets a de nombreux cas d'utilisation dans différents secteurs, du sport à la biologie marine. Par exemple, dans le commerce de détail, la technologie Just Walk Out d'Amazon utilise la détection d'objets pour automatiser le passage en caisse en identifiant les articles que les clients prennent. La combinaison de la vision par ordinateur et des données des capteurs permet aux clients de prendre leurs articles et de partir sans faire la queue.

Voici un examen plus approfondi de son fonctionnement :

Les caméras fixées au plafond capturent les clients qui se déplacent dans le magasin, et ces séquences vidéo sont traitées en temps réel par des modèles de vision.
‍
La détection d'objets est utilisée pour détecter le produit exact qu'un client prend et place dans son panier afin de mettre à jour son panier virtuel en conséquence.
‍
Les capteurs de poids placés sur les étagères améliorent la précision en détectant le retrait ou le remplacement des articles.
‍
Lorsque le client sort du magasin, la technologie de détection des objets et de reconnaissance faciale peut être utilisée pour confirmer qu'il est parti, et ses données de paiement, comme une carte de crédit, peuvent être utilisées pour le facturer automatiquement.

Segmentation sémantique et par instance

La segmentation sémantique et la segmentation d'instance sont des tâches de vision par ordinateur qui aident à diviser les images en segments significatifs. La segmentation sémantique classe les pixels en fonction de leur signification sémantique et traite tous les objets d'une catégorie comme une seule entité avec la même étiquette. Elle convient à l'étiquetage d'objets non dénombrables comme "le ciel" ou "l'océan" ou de groupes comme "les feuilles" ou "l'herbe".

La segmentation par instance, quant à elle, permet de distinguer les différentes instances d'une même classe en attribuant une étiquette unique à chaque objet détecté. Tu peux utiliser la segmentation par instance pour segmenter des objets dénombrables lorsque le nombre et l'indépendance des objets sont importants. Elle permet une identification et une différenciation plus précises.

‍

Nous pouvons comprendre plus clairement le contraste entre la segmentation sémantique et la segmentation par instance avec un exemple lié aux voitures autonomes. La segmentation sémantique est idéale pour les tâches qui nécessitent de comprendre le contenu d'une scène et peut être utilisée dans les véhicules autonomes pour classer les caractéristiques sur la route, comme les passages piétons et les panneaux de signalisation. Parallèlement, la segmentation par instance peut être utilisée dans les véhicules autonomes pour identifier les piétons, les véhicules et les obstacles.

Estimation de la pose

L'estimation de la pose est une tâche de vision par ordinateur axée sur la détection et le suivi des points clés de la pose d'un objet dans des images ou des vidéos. Elle est le plus souvent utilisée pour l'estimation de la pose d'un être humain, les points clés comprenant des zones comme les épaules et les genoux. L'estimation de la pose d'un être humain nous aide à comprendre et à reconnaître les actions et les mouvements qui sont essentiels pour diverses applications.

‍

L'estimation de la pose peut être utilisée dans les sports pour analyser la façon dont les athlètes se déplacent. La NBA utilise l'estimation de la pose pour étudier les mouvements et les positions des joueurs pendant le match. En suivant des points clés comme les épaules, les coudes, les genoux et les chevilles, l'estimation de la pose fournit des informations détaillées sur les mouvements des joueurs. Ces informations aident les entraîneurs à élaborer de meilleures stratégies, à optimiser les programmes d'entraînement et à faire des ajustements en temps réel pendant les matchs. De plus, les données peuvent aider à surveiller la fatigue des joueurs et les risques de blessures afin d'améliorer la santé et les performances globales des joueurs.

Boîtes de délimitation orientées détection d'objets

La détection d'objets par boîtes de délimitation orientées (OBB) utilise des rectangles tournés pour identifier et localiser avec précision des objets dans une image. Contrairement aux boîtes de délimitation standard qui s'alignent sur les axes de l'image, les OBB pivotent pour s'adapter à l'orientation de l'objet. Ils sont donc particulièrement utiles pour les objets qui ne sont pas parfaitement horizontaux ou verticaux. Ils sont parfaits pour localiser avec précision et isoler les objets pivotés afin d'éviter les chevauchements dans les environnements encombrés.

‍

Dans le cadre de la surveillance maritime, l'identification et le suivi des navires sont essentiels pour la sécurité et la gestion des ressources. La détection OBB peut être utilisée pour la localisation précise des navires, même lorsqu'ils sont densément entassés ou orientés sous différents angles. Elle permet de surveiller les voies de navigation, de gérer le trafic maritime et d'optimiser les opérations portuaires. Elle peut également contribuer aux interventions en cas de catastrophe en identifiant et en évaluant rapidement les dommages subis par les navires et les infrastructures après des événements tels que les ouragans ou les marées noires.

Suivi des objets

Jusqu'à présent, nous avons abordé les tâches de vision par ordinateur qui traitent des images. Le suivi d'objet est une tâche de vision par ordinateur qui permet de suivre un objet tout au long des images d'une vidéo. Il commence par identifier l'objet dans la première image à l'aide d'algorithmes de détection, puis suit continuellement sa position au fur et à mesure qu'il se déplace dans la vidéo. Le suivi d'objet fait appel à des techniques telles que la détection d'objet, l'extraction de caractéristiques et la prédiction de mouvement pour assurer la précision du suivi.

‍

Les modèles de vision comme YOLOv8 peuvent être utilisés pour suivre les poissons en biologie marine. À l'aide de caméras sous-marines, les chercheurs peuvent surveiller les mouvements et les comportements des poissons dans leurs habitats naturels. Le processus commence par la détection des poissons individuels dans les premières images, puis suit leur position tout au long de la vidéo. Le suivi des poissons aide les scientifiques à comprendre les schémas de migration, les comportements sociaux et les interactions avec l'environnement. Il soutient également les pratiques de pêche durable en fournissant des informations sur la répartition et l'abondance des poissons.

Un dernier regard sur la vision par ordinateur

La vision par ordinateur change activement la façon dont nous utilisons la technologie et interagissons avec le monde. En utilisant des modèles d'apprentissage profond et des algorithmes complexes pour comprendre les images et les vidéos, la vision par ordinateur aide les industries à rationaliser de nombreux processus. Les tâches de vision par ordinateur telles que la détection et le suivi d'objets permettent de créer des solutions qui n'avaient pas été imaginées auparavant. Comme la technologie de la vision par ordinateur ne cesse de s'améliorer, l'avenir nous réserve bien d'autres applications innovantes !

Apprenons et grandissons ensemble ! Explore notre dépôt GitHub pour voir nos contributions à l'IA. Regarde comment nous redéfinissons des industries comme les voitures autonomes et l'agriculture grâce à l'IA. 🚀

Explorer le fonctionnement des applications de la vision par ordinateur

Qu'est-ce que la vision par ordinateur ?

Les modèles de vision soutiennent diverses tâches de vision par ordinateur

Classification des images

Détection d'objets

Segmentation sémantique et par instance

Estimation de la pose

Boîtes de délimitation orientées détection d'objets

Suivi des objets

Un dernier regard sur la vision par ordinateur

Lire la suite dans cette catégorie

Construisons ensemble le futur
de l'IA !

Explorer le fonctionnement des applications de la vision par ordinateur

Qu'est-ce que la vision par ordinateur ?

Les modèles de vision soutiennent diverses tâches de vision par ordinateur

Classification des images

Détection d'objets

Segmentation sémantique et par instance

Estimation de la pose

Boîtes de délimitation orientées détection d'objets

Suivi des objets

Un dernier regard sur la vision par ordinateur

Lire la suite dans cette catégorie

Construisons ensemble le futur de l'IA !

Construisons ensemble le futur
de l'IA !