Contrôle vert
Lien copié dans le presse-papiers

Tout ce que tu dois savoir sur la vision par ordinateur en 2025

Découvre comment la vision par ordinateur transforme les industries grâce à des tâches alimentées par l'IA comme la détection d'objets, la classification d'images et l'estimation de la pose.

Il y a vingt ans, l'idée que les machines et les ordinateurs puissent voir et comprendre le monde relevait de la science-fiction. Aujourd'hui, grâce aux progrès de l'intelligence artificielle (IA), ce concept est devenu une réalité. En particulier, la vision par ordinateur (VA), une branche de l'IA, permet aux machines de comprendre et d'analyser les images et les vidéos. Qu'il s'agisse d'identifier des objets en temps réel, d'améliorer les systèmes de sécurité ou d'automatiser des tâches complexes, son potentiel repousse les limites du possible. 

La vision par ordinateur façonne rapidement l'avenir de la technologie, car diverses industries explorent différentes façons d'adopter ses capacités uniques. La taille du marché mondial de la technologie de vision par ordinateur a atteint 19,83 milliards de dollars en 2024 et devrait croître de 19,8 % par an dans les années à venir.

__wf_reserved_inherit
Fig 1. Taille du marché mondial de la vision par ordinateur.

Dans cet article, nous allons nous intéresser de plus près à la vision par ordinateur, en abordant ce qu'elle est, comment elle a évolué et comment elle fonctionne aujourd'hui. Nous explorerons également certaines de ses applications les plus intéressantes. Commençons par le début !

Qu'est-ce que la vision par ordinateur ?

La vision par ordinateur est un sous-domaine de l'IA qui s'appuie sur l'apprentissage automatique et les réseaux neuronaux pour apprendre aux ordinateurs à comprendre le contenu des données visuelles, telles que les images ou les fichiers vidéo. Les informations recueillies à partir des images traitées peuvent être utilisées pour prendre de meilleures décisions. Par exemple, la vision par ordinateur peut être utilisée dans le commerce de détail pour suivre les niveaux de stock en analysant les images des étagères ou pour améliorer l'expérience d'achat grâce à des systèmes de caisse automatisés. De nombreuses entreprises utilisent déjà la technologie de vision par ordinateur pour différentes applications qui vont de tâches telles que l'ajout de filtres aux photos de smartphones au contrôle de la qualité dans la fabrication. 

Tu te demandes peut-être : pourquoi a-t-on tant besoin de solutions de vision par ordinateur ? Les tâches qui nécessitent une attention constante, comme repérer des défauts ou reconnaître des modèles, peuvent être difficiles pour les humains. Les yeux peuvent se fatiguer et des détails peuvent être manqués, en particulier dans des environnements rapides ou complexes. 

Si les gens sont doués pour reconnaître des objets de tailles, de couleurs, d'éclairages ou d'angles différents, ils ont souvent du mal à rester cohérents sous la pression. Les solutions de vision par ordinateur, en revanche, travaillent sans arrêt, traitant rapidement et avec précision de grandes quantités de données visuelles. Par exemple, elles peuvent analyser le trafic en temps réel pour détecter les embouteillages, optimiser la synchronisation des signaux ou même identifier les accidents plus rapidement qu'un observateur humain ne pourrait le faire.

Comprendre l'histoire de la vision par ordinateur

Au fil des ans, la vision par ordinateur est passée d'un concept théorique à une technologie fiable qui stimule l'innovation dans tous les secteurs d'activité. Jetons un coup d'œil à quelques-unes des étapes clés qui ont défini son développement :

  • Années 1950 - 1960 : Les chercheurs ont commencé à développer des algorithmes pour traiter et analyser les données visuelles, mais les progrès ont été lents en raison de la puissance de calcul limitée.
  • 1970s : Cette décennie a vu des améliorations majeures dans les algorithmes, comme la transformation de Hough, qui a amélioré la détection des lignes et des formes géométriques dans les images. La reconnaissance optique de caractères (OCR) a également fait son apparition, permettant aux machines de lire des textes imprimés.
  • Années 1980 - 1990 : L'apprentissage automatique a commencé à jouer un rôle dans la vision par ordinateur, ouvrant la voie à des capacités plus avancées et à de futures percées.
  • Années 2000 - 2010 : L'apprentissage profond a apporté une nouvelle dimension à la vision par ordinateur, en équipant les machines pour qu'elles interprètent plus efficacement les données visuelles. Il a amélioré des capacités telles que l'identification d'objets, l'analyse de mouvements et l'exécution de tâches complexes.

De nos jours, la vision par ordinateur progresse rapidement et transforme la façon dont nous résolvons les problèmes dans des domaines tels que les soins de santé, les véhicules autonomes et les villes intelligentes. Ultralytics YOLO Les modèles (You Only Look Once), conçus pour les tâches de vision par ordinateur en temps réel, facilitent la mise en œuvre efficace et précise de l'IA de vision dans divers secteurs d'activité. Alors que l'IA et le matériel continuent de s'améliorer, ces modèles aident les entreprises à prendre des décisions plus intelligentes et à rationaliser leurs opérations grâce à l'analyse avancée des données visuelles.

Décomposer le fonctionnement de la vision par ordinateur

Les systèmes de vision par ordinateur fonctionnent en utilisant des réseaux neuronaux, qui sont des algorithmes inspirés du fonctionnement du cerveau humain, pour analyser les images. Un type spécifique, appelé réseau neuronal convolutif (CNN), est particulièrement efficace pour reconnaître les motifs, comme les bords et les formes dans les images. 

Pour simplifier les données visuelles, des techniques comme le pooling se concentrent sur les parties les plus importantes d'une image, tandis que des couches supplémentaires traitent ces informations pour effectuer des tâches comme l'identification de caractéristiques ou la détection d'objets. Des modèles avancés comme Ultralytics YOLO11conçus pour la vitesse et la précision, rendent possible le traitement d'images en temps réel.

__wf_reserved_inherit
Fig 2. Exemple d'utilisation de Ultralytics YOLO11 pour la détection d'objets.

Une application typique de vision par ordinateur comporte plusieurs étapes pour transformer des images brutes en informations utiles. Voici les quatre étapes principales :

  • Acquisition d'images: Les données visuelles sont collectées à l'aide de caméras ou de capteurs, et la qualité des images dépend du type de capteur utilisé.
  • Traitement de l'image: Les données recueillies sont ensuite améliorées grâce à des techniques de prétraitement telles que la réduction du bruit et la mise en évidence des bords pour faciliter leur analyse.
  • Extraction des caractéristiques: Les détails importants, comme les formes et les textures, sont sélectionnés, en se concentrant sur les parties de l'image qui comptent le plus.  
  • Reconnaissance des formes: Les caractéristiques identifiées sont analysées à l'aide de l'apprentissage automatique pour accomplir des tâches telles que la détection d'objets, le suivi de mouvements ou la reconnaissance de modèles.

Explorer les tâches de vision par ordinateur

Tu as peut-être remarqué qu'en parlant du fonctionnement de la vision par ordinateur, nous avons mentionné les tâches de vision par ordinateur. Les modèles tels que Ultralytics YOLO11 sont conçus pour prendre en charge ces tâches, offrant des solutions rapides et précises pour les applications du monde réel. De la détection d'objets au suivi de leurs mouvements, YOLO11 gère ces tâches efficacement. Explorons quelques-unes des principales tâches de vision par ordinateur qu'il prend en charge et comment elles fonctionnent.

Détection d'objets

La détection d'objets est une tâche clé de la vision par ordinateur, qui permet d'identifier les objets intéressants dans une image. Le résultat d'une tâche de détection d'objets est un ensemble de boîtes de délimitation (rectangles dessinés autour des objets détectés dans une image), ainsi que des étiquettes de classe (la catégorie ou le type de chaque objet, comme "voiture" ou "personne") et des scores de confiance (une valeur numérique indiquant le degré de certitude du modèle par rapport à chaque détection). Par exemple, la détection d'objets peut être utilisée pour identifier et préciser l'emplacement d'un piéton dans une rue ou d'une voiture dans la circulation.

__wf_reserved_inherit
Fig 3. YOLO11 utilisé pour détecter des objets.

Classification des images

L'objectif principal de la classification des images est d'attribuer une étiquette ou une catégorie prédéfinie à une image d'entrée en fonction de son contenu global. Cette tâche implique généralement l'identification de l'objet ou de la caractéristique dominante dans l'image. Par exemple, la classification d'images peut être utilisée pour déterminer si une image contient un chat ou un chien. Les modèles de vision par ordinateur tels que YOLO11 peuvent même être formés sur mesure pour classer des races individuelles de chats ou de chiens, comme le montre l'illustration ci-dessous.

__wf_reserved_inherit
Fig 4. Classification des différentes races de chats à l'aide de YOLO11.

Segmentation des instances

La segmentation des instances est une autre tâche cruciale de la vision par ordinateur utilisée dans diverses applications. Elle consiste à diviser une image en segments et à identifier chaque objet individuel, même s'il y a plusieurs objets du même type. Contrairement à la détection d'objets, la segmentation d'instances va plus loin en définissant les limites précises de chaque objet. Par exemple, dans le domaine de la fabrication et de la réparation automobile, la segmentation d'instance peut aider à identifier et à étiqueter chaque pièce de voiture séparément, ce qui rend le processus plus précis et plus efficace.

__wf_reserved_inherit
Fig 5. Segmentation des pièces de voiture à l'aide de YOLO11.

Estimation de la pose

L'objectif de l'estimation de la pose est de déterminer la position et l'orientation d'une personne ou d'un objet en prédisant l'emplacement de points clés, tels que les mains, la tête et les coudes. Cela est particulièrement utile dans les applications où il est important de comprendre les actions physiques en temps réel. L'estimation de la pose humaine est couramment utilisée dans des domaines tels que l'analyse sportive, la surveillance du comportement des animaux et la robotique.

__wf_reserved_inherit
Fig 6. YOLO11 peut aider à l'estimation de la pose humaine.

Pour explorer les autres tâches de vision par ordinateur prises en charge par YOLO11, tu peux te référer à la documentation officielle de Ultralytics . Elle fournit des informations détaillées sur la façon dont YOLO11 gère des tâches telles que le suivi d'objets et la détection d'objets par boîte de délimitation orientée (OBB).

Modèles populaires de vision par ordinateur aujourd'hui

Bien qu'il existe de nombreux modèles de vision par ordinateur, la série Ultralytics YOLO se distingue par ses performances et sa polyvalence. Au fil du temps, les modèles Ultralytics YOLO se sont améliorés, devenant plus rapides, plus précis et capables de traiter davantage de tâches. Lorsque Ultralytics YOLOv5 a été introduit, le déploiement des modèles est devenu plus facile avec les cadres de Vision AI comme PyTorch. Cela a permis à un plus grand nombre d'utilisateurs de travailler avec l'IA Vision avancée, en combinant une grande précision et une grande facilité d'utilisation.

Ensuite, Ultralytics YOLOv8 est allé plus loin en ajoutant de nouvelles capacités telles que la segmentation des instances, l'estimation de la pose et la classification des images. Entre-temps, la dernière version, YOLO11, offre des performances optimales dans de nombreuses tâches de vision par ordinateur. Avec 22 % de paramètres en moins que YOLOv8m, YOLO11m atteint une précision moyenne plus élevée (mAP) sur l'ensemble de données COCO, ce qui signifie qu'il peut détecter des objets avec plus de précision et d'efficacité. Que tu sois un développeur expérimenté ou que tu découvres l'IA, YOLO11 offre une solution puissante pour tes besoins en matière de vision par ordinateur.

Le rôle de la vision par ordinateur dans la vie de tous les jours

Plus tôt, nous avons discuté de la façon dont les modèles de vision par ordinateur tels que YOLO11 peuvent être appliqués dans un large éventail d'industries. Maintenant, explorons d'autres cas d'utilisation qui changent notre vie quotidienne.

Vision L'IA dans les soins de santé

Il existe un large éventail d'applications pour la vision par ordinateur dans le domaine de la santé. Des tâches telles que la détection et la classification d'objets sont utilisées en imagerie médicale pour rendre la détection des maladies plus rapide et plus précise. Dans l'analyse des rayons X, la vision par ordinateur permet d'identifier des motifs qui pourraient être trop subtils pour l'œil humain. 

Elle est également utilisée dans la détection du cancer pour comparer les cellules cancéreuses aux cellules saines. De même, en ce qui concerne les tomodensitogrammes et les IRM, la vision par ordinateur peut être utilisée pour analyser les images avec une précision quasi humaine. Elle aide les médecins à prendre de meilleures décisions et, en fin de compte, à sauver plus de vies.

__wf_reserved_inherit
Fig 7. YOLO11 utilisé pour analyser les scanners médicaux.

L'IA dans l'industrie automobile

La vision par ordinateur est essentielle pour les voitures autonomes, car elle les aide à détecter des objets tels que les panneaux de signalisation et les feux de circulation. Des techniques telles que la reconnaissance optique de caractères (OCR) permettent à la voiture de lire le texte des panneaux de signalisation. Elles sont également utilisées pour la détection des piétons, où les tâches de détection d'objets identifient les personnes en temps réel. 

En plus de cela, la vision par ordinateur peut même repérer les fissures et les nids-de-poule sur les surfaces routières, ce qui permet de mieux surveiller l'évolution de l'état des routes. Dans l'ensemble, la technologie de la vision par ordinateur peut jouer un rôle clé dans l'amélioration de la gestion du trafic, le renforcement de la sécurité des transports en commun et le soutien à la planification des villes intelligentes.

__wf_reserved_inherit
Fig 8. Comprendre le trafic à l'aide de YOLO11.

Vision par ordinateur dans l'agriculture

Imaginons que les agriculteurs puissent automatiquement semer, arroser et récolter leurs cultures à temps, sans aucun souci. C'est exactement ce que la vision par ordinateur apporte à l'agriculture. Elle facilite la surveillance des cultures en temps réel, de sorte que les agriculteurs peuvent détecter des problèmes tels que les maladies ou les carences en nutriments avec plus de précision que les humains. 

En plus de la surveillance, les désherbeurs automatiques pilotés par l'IA et intégrés à la vision par ordinateur peuvent identifier et éliminer les mauvaises herbes, ce qui permet de réduire les coûts de main-d'œuvre et d'augmenter le rendement des cultures. Cette combinaison de technologies aide les agriculteurs à optimiser leurs ressources, à améliorer leur efficacité et à protéger leurs cultures.

__wf_reserved_inherit
Fig 9. Un exemple d'utilisation de YOLO11 dans l'agriculture.

Automatiser les processus de fabrication grâce à l'IA

Dans le secteur de la fabrication, la vision par ordinateur permet de surveiller la production, de vérifier la qualité des produits et de suivre les travailleurs automatiquement. L'IA de vision rend le processus plus rapide, et plus précis, tout en réduisant les erreurs, ce qui permet de réduire les coûts. 

Plus précisément, pour l'assurance qualité, la détection d'objets et la segmentation d'instances sont couramment utilisées. Les systèmes de détection des défauts effectuent un contrôle final des produits finis pour s'assurer que seuls les meilleurs parviennent aux clients. Tout produit présentant des bosses ou des fissures est automatiquement identifié et rejeté. Ces systèmes permettent également de suivre et de compter les produits en temps réel, assurant ainsi un contrôle continu sur la chaîne de montage.

__wf_reserved_inherit
Fig 10. Surveillance d'une chaîne de montage à l'aide de la vision par ordinateur.

L'éducation a plus d'impact grâce à la vision par ordinateur

L'une des façons dont la vision par ordinateur est utilisée en classe est la reconnaissance des gestes - elle personnalise l'apprentissage en détectant les mouvements des élèves. Les modèles tels que YOLO11 sont parfaits pour cette tâche. Ils peuvent identifier avec précision les gestes tels que les mains levées ou les expressions confuses en temps réel. 

Lorsque de tels gestes sont détectés, une leçon en cours peut être ajustée en fournissant une aide supplémentaire ou en modifiant le contenu pour mieux répondre aux besoins de l'élève. Cela crée un environnement d'apprentissage plus dynamique et adaptatif, aidant les enseignants à se concentrer sur l'enseignement pendant que le système soutient l'expérience d'apprentissage de chaque élève.

Tendances récentes en matière de vision par ordinateur

Maintenant que nous avons exploré certaines des applications de la vision par ordinateur dans divers secteurs d'activité, plongeons-nous dans les principales tendances qui stimulent sa progression.

L'une des principales tendances est l'edge computing, un cadre informatique distribué qui traite les données au plus près de leur source. Par exemple, l'edge computing équipe des appareils tels que des caméras et des capteurs pour traiter directement les données visuelles, ce qui permet d'accélérer les temps de réponse, de réduire les retards et d'améliorer la confidentialité.

Une autre tendance clé de la vision par ordinateur est l'utilisation de la réalité fusionnée. Elle combine le monde physique avec des éléments numériques, en utilisant la vision par ordinateur pour que les objets virtuels se fondent harmonieusement dans le monde réel. Elle peut être utilisée pour améliorer les expériences dans les jeux, l'éducation et la formation. 

Avantages et inconvénients de la vision par ordinateur

Voici quelques-uns des principaux avantages que la vision par ordinateur peut apporter à diverses industries :

  • Réduction des coûts : L'automatisation des tâches à l'aide de la vision par ordinateur permet de réduire les coûts opérationnels, d'améliorer la productivité et de minimiser les erreurs.
  • Évolutivité : Une fois mis en œuvre, les systèmes de vision par ordinateur peuvent facilement évoluer pour traiter de grandes quantités de données, ce qui les rend adaptés aux entreprises en pleine croissance ou aux opérations à grande échelle.
  • Personnalisation spécifique à l'application : Les modèles de vision par ordinateur peuvent être affinés à l'aide de ton ensemble de données, ce qui te permet d'obtenir des solutions hautement spécialisées qui répondent aux exigences de ton application.

Bien que ces avantages mettent en évidence la façon dont la vision par ordinateur peut avoir un impact sur diverses industries, il est également important de considérer les défis liés à sa mise en œuvre. Voici quelques-uns des principaux défis :

  • Problèmes de confidentialité des données : L'utilisation de données visuelles, en particulier dans des domaines sensibles comme la surveillance ou les soins de santé, peut soulever des problèmes de confidentialité et de sécurité.
  • Limites environnementales : Les systèmes de vision par ordinateur peuvent avoir du mal à fonctionner correctement dans des environnements difficiles, tels qu'un mauvais éclairage, des images de mauvaise qualité ou des arrière-plans complexes.
  • Coût initial élevé : Le développement et la mise en œuvre de systèmes de vision par ordinateur peuvent être coûteux en raison du besoin de matériel spécialisé, de logiciels et d'expertise.

Principaux enseignements

La vision par ordinateur réinvente la façon dont les machines interagissent avec le monde en leur permettant de voir et de comprendre le monde comme le font les humains. Elle est déjà utilisée dans de nombreux domaines, comme l'amélioration de la sécurité dans les voitures autonomes, l'aide aux médecins pour diagnostiquer les maladies plus rapidement, la personnalisation des achats et même l'aide aux agriculteurs pour le suivi des cultures. 

Alors que la technologie ne cesse de s'améliorer, de nouvelles tendances telles que l'edge computing et la réalité fusionnée ouvrent encore plus de possibilités. Bien qu'il y ait quelques défis, comme les biais, et des coûts élevés, la vision par ordinateur a le potentiel d'avoir un impact positif énorme sur de nombreuses industries à l'avenir.

Pour en savoir plus, visite notre dépôt GitHub et engage-toi auprès de notre communauté. Explore les innovations dans des secteurs comme l'IA dans les voitures autonomes et la vision par ordinateur dans l'agriculture sur nos pages de solutions. 🚀

Logo FacebookLogo de TwitterLogo LinkedInSymbole du lien de copie

Lire la suite dans cette catégorie

Construisons ensemble le futur
de l'IA !

Commence ton voyage avec le futur de l'apprentissage automatique.