X
Ultralytics YOLOv8.2 LibérationUltralytics YOLOv8.2 Release MobileUltralytics YOLOv8.2 Flèche de déverrouillage
Contrôle vert
Lien copié dans le presse-papiers

Une histoire des modèles de vision

Explore l'histoire, les réalisations, les défis et les orientations futures des modèles de vision.

Qu'est-ce que la vision par ordinateur ?

Imagine que tu entres dans un magasin où une caméra identifie ton visage, analyse ton humeur et te suggère des produits adaptés à tes préférences, le tout en temps réel. Ce n'est pas de la science-fiction mais une réalité rendue possible par les modèles de vision modernes. Selon un rapport de Fortune Business Insight, la taille du marché mondial de la vision par ordinateur était évaluée à 20,31 milliards d'USD en 2023 et devrait passer de 25,41 milliards d'USD en 2024 à 175,72 milliards d'USD d'ici 2032, ce qui reflète les progrès rapides et l'adoption croissante de cette technologie dans diverses industries.

Le domaine de la vision par ordinateur permet aux ordinateurs de détecter, d'identifier et d'analyser des objets dans des images. À l'instar d'autres domaines liés à l'IA, la vision par ordinateur a connu une évolution rapide au cours des dernières décennies, réalisant des progrès remarquables. 

L'histoire de la vision par ordinateur est vaste. À ses débuts, les modèles de vision par ordinateur étaient capables de détecter des formes et des bords simples, et se limitaient souvent à des tâches basiques telles que la reconnaissance de motifs géométriques ou la différenciation entre les zones claires et sombres. Cependant, les modèles d'aujourd'hui peuvent effectuer des tâches complexes telles que la détection d'objets en temps réel, la reconnaissance faciale et même l'interprétation des émotions à partir des expressions faciales avec une précision et une efficacité exceptionnelles. Cette progression spectaculaire met en évidence les progrès incroyables réalisés en matière de puissance de calcul, de sophistication algorithmique et de disponibilité de vastes quantités de données pour l'entraînement.

Dans cet article, nous allons explorer les étapes clés de l'évolution de la vision par ordinateur. Nous parcourrons ses premiers balbutiements, nous plongerons dans l'impact transformateur des réseaux neuronaux convolutifs (CNN) et nous examinerons les avancées significatives qui ont suivi.

Les débuts de la vision par ordinateur

Comme pour les autres domaines de l'IA, les premiers développements de la vision par ordinateur ont commencé par des recherches fondamentales et des travaux théoriques. Une étape importante a été le travail de pionnier de Lawrence G. Roberts sur la reconnaissance d'objets en 3D, documenté dans sa thèse"Machine Perception of Three-Dimensional Solids" au début des années 1960. Ses contributions ont jeté les bases des progrès futurs dans ce domaine.

Les premiers algorithmes - Détection des bords

Les premières recherches sur la vision par ordinateur se sont concentrées sur les techniques de traitement d'image, telles que la détection des bords et l'extraction des caractéristiques. Des algorithmes comme l'opérateur Sobel, développé à la fin des années 1960, ont été parmi les premiers à détecter les bords en calculant le gradient de l'intensité de l'image.

Fig 1. Une image démontrant la détection des bords, où le côté gauche montre l'objet original et le côté droit affiche la version détectée des bords.

Des techniques telles que les détecteurs de bords Sobel et Canny ont joué un rôle crucial dans l'identification des limites dans les images, qui sont essentielles pour reconnaître les objets et comprendre les scènes.

Apprentissage automatique et vision par ordinateur

Reconnaissance des formes

Dans les années 1970, la reconnaissance des formes est apparue comme un domaine clé de la vision par ordinateur. Les chercheurs ont développé des méthodes pour reconnaître les formes, les textures et les objets dans les images, ce qui a ouvert la voie à des tâches de vision plus complexes.

Fig 2. Reconnaissance des formes.

L'une des premières méthodes de reconnaissance des formes consistait à comparer des modèles, c'est-à-dire à comparer une image à un ensemble de modèles pour trouver la meilleure correspondance. Cette approche était limitée par sa sensibilité aux variations d'échelle, à la rotation et au bruit.

Fig 3. Un modèle sur le côté gauche se trouve dans l'image de droite.

Les premiers systèmes de vision par ordinateur étaient limités par la puissance de calcul restreinte de l'époque. Les ordinateurs des années 1960 et 1970 étaient encombrants, coûteux et avaient des capacités de traitement limitées.

Changer la donne avec l'apprentissage profond

Apprentissage profond et réseaux neuronaux à convolution

L'apprentissage profond et les réseaux neuronaux convolutifs (CNN) ont marqué un moment charnière dans le domaine de la vision par ordinateur. Ces avancées ont radicalement transformé la façon dont les ordinateurs interprètent et analysent les données visuelles, permettant un large éventail d'applications que l'on croyait auparavant impossibles.

Comment fonctionne CNNs ?

Fig 4. Architecture d'un réseau neuronal convolutif (CNN).

  1. Couches convolutives: Les CNN utilisent des couches convolutives qui sont un type de modèle d'apprentissage profond conçu pour traiter des données structurées en forme de grille, telles que des images ou des séquences, en apprenant automatiquement des motifs hiérarchiques. pour balayer une image à l'aide de filtres ou de noyaux. Ces filtres détectent diverses caractéristiques telles que les bords, les textures et les couleurs en glissant sur l'image et en calculant les produits de points. Chaque filtre active des motifs spécifiques dans l'image, ce qui permet au modèle d'apprendre des caractéristiques hiérarchiques.
  2. Fonctions d'activation: Après la convolution, les fonctions d'activation comme ReLU (Rectified Linear Unit) qui est une fonction d'activation populaire dans l'apprentissage profond qui sort l'entrée directement si elle est positive, et zéro sinon, ce qui aide les réseaux neuronaux à apprendre efficacement les relations non linéaires dans les données. Cela aide le réseau à apprendre des modèles et des représentations complexes.
  3. Couches de mise en commun: Les couches de mise en commun fournissent une opération de sous-échantillonnage qui réduit la dimensionnalité de la carte des caractéristiques, ce qui permet d'extraire les caractéristiques les plus pertinentes tout en réduisant les coûts de calcul et le surajustement.
  4. Couches entièrement connectées: Les dernières couches d'un CNN sont des couches entièrement connectées qui interprètent les caractéristiques extraites par les couches de convolution et de mise en commun pour faire des prédictions. Ces couches sont similaires à celles des réseaux neuronaux traditionnels.

‍Evolutiondes modèles de vision CNN

‍Leparcours des modèles de vision est vaste, présentant certains des plus remarquables :

  • LeNet (1989) : LeNet a été l'une des premières architectures CNN, principalement utilisée pour la reconnaissance de chiffres dans les chèques manuscrits. Son succès a jeté les bases de CNN plus complexes, prouvant le potentiel de l'apprentissage profond dans le traitement des images.
  • AlexNet (2012) : AlexNet a largement surpassé les modèles existants lors du concours ImageNet, mettant en avant la puissance de l'apprentissage profond. Ce modèle a utilisé les activations ReLU, l'abandon et l'augmentation des données, établissant de nouvelles références en matière de classification d'images et suscitant un intérêt généralisé pour les CNN.
  • VGGNet (2014) : En utilisant des filtres convolutifs plus petits (3x3), VGGNet a obtenu des résultats impressionnants sur des tâches de classification d'images, ce qui renforce l'importance de la profondeur du réseau pour obtenir une plus grande précision.
  • ResNet (2015) : ResNet s'est attaqué au problème de dégradation des réseaux profonds en introduisant l'apprentissage résiduel. Cette innovation a permis d'entraîner des réseaux beaucoup plus profonds, ce qui a conduit à des performances de pointe dans diverses tâches de vision par ordinateur.
  • YOLO (You Only Look Once): YOLO a révolutionné la détection d'objets en la présentant comme un problème de régression unique, prédisant directement les boîtes de délimitation et les probabilités de classe à partir d'images complètes en une seule évaluation. Cette approche a permis la détection d'objets en temps réel avec une vitesse et une précision sans précédent, ce qui la rend adaptée aux applications nécessitant un traitement instantané, telles que la conduite autonome et la surveillance.

‍Applications de la vision par ordinateur

Soins de santé

‍Lesutilisations de la vision par ordinateur sont nombreuses. Par exemple, les modèles de vision comme Ultralytics YOLOv8 sont utilisés en imagerie médicale pour détecter des maladies telles que le cancer et la rétinopathie diabétique. Ils analysent les rayons X, les IRM et les tomodensitogrammes avec une grande précision, ce qui permet d'identifier les anomalies à un stade précoce. Cette capacité de détection précoce permet d'intervenir à temps et d'améliorer les résultats pour les patients.

Fig 5. Détection des tumeurs cérébrales à l'aide de Ultralytics YOLOv8.

Préservation de l'environnement

Les modèles de vision par ordinateur aident à surveiller et à protéger les espèces menacées en analysant les images et les vidéos des habitats de la faune. Ils identifient et suivent le comportement des animaux, fournissant ainsi des données sur leur population et leurs mouvements. Cette technologie éclaire les stratégies de conservation et les décisions politiques visant à protéger des espèces comme les tigres et les éléphants.

Avec l'aide de l'IA vision, d'autres menaces environnementales telles que les feux de forêt et la déforestation peuvent être surveillées, ce qui garantit des temps de réponse rapides de la part des autorités locales.

Fig 6. Image satellite d'un feu de forêt.

Défis et orientations futures

Même s'ils ont déjà accompli des réalisations importantes, en raison de leur extrême complexité et de la nature exigeante de leur développement, les modèles de vision sont confrontés à de nombreux défis qui nécessitent des recherches continues et des avancées futures.

Interprétabilité et explicabilité

Les modèles de vision, en particulier ceux d'apprentissage profond, sont souvent considérés comme des "boîtes noires" à la transparence limitée. Cela est dû au fait que ces modèles sont incroyablement complexes. Le manque d'interprétabilité entrave la confiance et la responsabilité, en particulier dans les applications critiques comme les soins de santé par exemple.

Exigences informatiques

La formation et le déploiement de modèles d'IA de pointe exigent d'importantes ressources informatiques. C'est particulièrement vrai pour les modèles de vision, qui nécessitent souvent le traitement de grandes quantités de données d'images et de vidéos. Les images et les vidéos haute définition, qui font partie des données d'entrée de la formation les plus gourmandes en données, ajoutent à la charge de calcul. Par exemple, une seule image HD peut occuper plusieurs mégaoctets de stockage, ce qui rend le processus de formation gourmand en ressources et en temps. Il faut donc du matériel puissant et des algorithmes de vision artificielle optimisés pour traiter les nombreuses données et les calculs complexes nécessaires au développement de modèles de vision efficaces. La recherche sur des architectures plus efficaces, la compression des modèles et les accélérateurs matériels tels que les GPU et les TPU sont des domaines clés qui feront progresser l'avenir des modèles de vision. Ces améliorations visent à réduire les demandes de calcul et à augmenter l'efficacité du traitement. De plus, l'utilisation de modèles pré-entraînés avancés tels que YOLOv8 peuvent réduire considérablement la nécessité d'un entraînement intensif, rationalisant ainsi le processus de développement et améliorant l'efficacité.

Un paysage en constante évolution

De nos jours, les applications des modèles de vision sont très répandues, allant des soins de santé, comme la détection des tumeurs, aux utilisations quotidiennes comme la surveillance du trafic. Ces modèles avancés ont apporté des innovations à d'innombrables industries en offrant une précision, une efficacité et des capacités accrues qui étaient auparavant inimaginables. Alors que la technologie continue de progresser, le potentiel des modèles de vision pour innover et améliorer divers aspects de la vie et de l'industrie reste illimité. Cette évolution permanente souligne l'importance de poursuivre la recherche et le développement dans le domaine de la vision par ordinateur.

Tu es curieux de connaître l'avenir de l'IA visionnaire ? Pour plus d'informations sur les dernières avancées, explore le site Ultralytics Docs, et consulte leurs projets sur Ultralytics GitHub et YOLOv8 GitHub. En outre, pour avoir un aperçu des applications de l'IA dans divers secteurs, les pages de solutions sur les voitures auto-conduites et la fabrication offrent des informations particulièrement utiles.

Logo FacebookLogo de TwitterLogo LinkedInSymbole du lien de copie

Lire la suite dans cette catégorie

Construisons ensemble le futur
de l'IA !

Commence ton voyage avec le futur de l'apprentissage automatique.