En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Paramètres des cookies
En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Explorez les différents types de techniques d'apprentissage automatique et d'apprentissage profond utilisées dans les applications de vision par ordinateur, de l'apprentissage supervisé à l'apprentissage par transfert.
L'apprentissage automatique est un type d'intelligence artificielle (IA) qui aide les ordinateurs à apprendre à partir de données afin qu'ils puissent prendre des décisions par eux-mêmes, sans avoir besoin d'une programmation détaillée pour chaque tâche. Il s'agit de créer des modèles algorithmiques capables d'identifier des schémas dans les données. En identifiant des modèles dans les données et en apprenant à partir de ceux-ci, ces algorithmes peuvent progressivement améliorer leurs performances au fil du temps.
L'un des domaines où l 'apprentissage automatique joue un rôle crucial est celui de la vision artificielle, un domaine de l'intelligence artificielle qui se concentre sur les données visuelles. La vision par ordinateur utilise l'apprentissage automatique pour aider les ordinateurs à détecter et à reconnaître des modèles dans les images et les vidéos. Grâce aux progrès de l'apprentissage automatique, la valeur du marché mondial de la vision par ordinateur est estimée à environ 175,72 milliards de dollars d'ici à 2032.
Dans cet article, nous examinerons les différents types d'apprentissage automatique utilisés en vision artificielle, notamment l'apprentissage supervisé, non supervisé, par renforcement et par transfert, ainsi que la manière dont chacun joue un rôle dans différentes applications. Commençons par le commencement !
Aperçu de l'apprentissage automatique dans le domaine de la vision par ordinateur
En fait, de nombreux modèles avancés de vision par ordinateur, comme Ultralytics YOLO11, sont basés sur des réseaux neuronaux.
Fig. 1. Segmentation de scans cérébraux à l'aide d'Ultralytics YOLO11.
Il existe plusieurs types de méthodes d'apprentissage dans l'apprentissage automatique, comme l'apprentissage supervisé, l'apprentissage non supervisé, l'apprentissage par transfert et l'apprentissage par renforcement, qui repoussent les limites de ce qui est possible dans le domaine de la vision par ordinateur. Dans les sections suivantes, nous allons explorer chacun de ces types pour comprendre comment ils contribuent à la vision par ordinateur.
Explorer l'apprentissage supervisé
L'apprentissage supervisé est le type d'apprentissage automatique le plus couramment utilisé. Dans l'apprentissage supervisé, les modèles sont formés à l 'aide de données étiquetées. Chaque entrée est étiquetée avec la sortie correcte, ce qui aide le modèle à apprendre. À l'instar d'un élève qui apprend auprès d'un professeur, ces données étiquetées jouent le rôle de guide ou de superviseur.
Pendant la formation, le modèle reçoit à la fois des données d'entrée (les informations qu'il doit traiter) et des données de sortie (les réponses correctes). Cette configuration aide le modèle à apprendre le lien entre les entrées et les sorties. L'objectif principal de l'apprentissage supervisé est de permettre au modèle de découvrir une règle ou un modèle qui relie avec précision chaque entrée à sa sortie correcte. Grâce à cette correspondance, le modèle peut faire des prédictions précises lorsqu'il rencontre de nouvelles données. Par exemple, la reconnaissance faciale dans le domaine de la vision par ordinateur repose sur l'apprentissage supervisé pour identifier les visages sur la base de ces modèles appris.
Une utilisation courante est le déverrouillage de votre smartphone par reconnaissance faciale. Le modèle est entraîné sur des images étiquetées de votre visage de sorte que, lorsque vous déverrouillez votre téléphone, il compare l'image en direct avec ce qu'il a appris. S'il détecte une correspondance, votre téléphone se déverrouille.
Fig. 2. La reconnaissance faciale peut être utilisée pour déverrouiller votre smartphone.
Comment fonctionne l'apprentissage non supervisé dans l'IA ?
L'apprentissage non supervisé est un type d'apprentissage automatique qui utilise des données non étiquetées - le modèle ne reçoit pas de conseils ou de réponses correctes pendant la formation. Au lieu de cela, il apprend à découvrir des modèles et des idées par lui-même.
L'apprentissage non supervisé permet d'identifier des modèles à l'aide de trois méthodes principales :
Regroupement: Regroupe les points de données similaires. Il est utile pour des tâches telles que la segmentation de la clientèle, où des clients similaires peuvent être regroupés sur la base de leurs comportements ou de leurs attributs.
Association: Elle est utilisée pour identifier les relations entre les éléments, ce qui permet de découvrir des liens dans les données (par exemple, trouver des produits souvent achetés ensemble dans l'analyse du panier de la ménagère).
Réduction de la dimensionnalité: Simplifie les ensembles de données en supprimant les caractéristiques redondantes, ce qui facilite la visualisation et le traitement.
L'une des principales applications de l'apprentissage non supervisé est la compression d'images, où des techniques telles que le regroupement par k-moyennes permettent de réduire la taille des images sans en affecter la qualité visuelle. Les pixels sont regroupés en grappes et chaque grappe est représentée par une couleur moyenne, ce qui permet d'obtenir une image avec moins de couleurs et une taille de fichier plus petite.
Fig. 3. Exemple de compression d'image non supervisée.
Cependant, l'apprentissage non supervisé est confronté à certaines limites. Sans réponses prédéfinies, il peut se heurter à des problèmes de précision et d'évaluation desperformances. Il nécessite souvent un effort manuel pour interpréter les résultats et étiqueter les groupes, et il est sensible à des problèmes tels que les valeurs manquantes et le bruit, qui peuvent avoir un impact sur la qualité des résultats.
L'apprentissage par renforcement expliqué
Contrairement à l'apprentissage supervisé et non supervisé, l'apprentissage par renforcement ne repose pas sur des données de formation. Il utilise plutôt des agents de réseaux neuronaux pour interagir avec un environnement afin d'atteindre un objectif spécifique.
Le processus comprend trois éléments principaux :
Agent: L'apprenant ou le décideur.
Environnement: Tout ce avec quoi l'agent interagit, qui peut être réel ou virtuel.
Signal de récompense: Une valeur numérique attribuée après chaque action, guidant l'agent vers l'objectif.
Lorsque l'agent prend des mesures, il affecte l'environnement, qui réagit alors par un retour d'information. Le retour d'information aide l'agent à évaluer ses choix et à adapter son comportement. Le signal de récompense aide l'agent à comprendre quelles actions le rapprochent de son objectif.
L'apprentissage par renforcement est essentiel pour les cas d'utilisation tels que la conduite autonome et la robotique. Dans la conduite autonome, les tâches telles que les commandes du véhicule, la détection et l'évitement d'objets apprennent en fonction du retour d'information. Des modèles sont formés à l'aide d'agents de réseaux neuronaux pour détecter les piétons ou d'autres objets et prendre les mesures appropriées pour éviter les collisions. De même, en robotique, l'apprentissage par renforcement permet d'accomplir des tâches telles que la manipulation d'objets et le contrôle des mouvements.
Un excellent exemple de l'apprentissage par renforcement en action est un projet de l'OpenAI, dans le cadre duquel des chercheurs ont entraîné des agents d'IA à jouer au jeu vidéo multijoueur populaire Dota 2. À l'aide de réseaux neuronaux, ces agents ont traité d'énormes quantités d'informations provenant de l'environnement du jeu afin de prendre des décisions stratégiques rapides. Grâce à un retour d'information continu, les agents ont appris et se sont améliorés au fil du temps, atteignant finalement un niveau de compétence suffisamment élevé pour battre certains des meilleurs joueurs du jeu.
Fig. 4. Interprétation de la matrice Dota par l'homme et l'IA.
Comprendre les bases de l'apprentissage par transfert
L'apprentissage par transfert est différent des autres types d'apprentissage. Au lieu de former un modèle à partir de zéro, il utilise un modèle préformé sur un grand ensemble de données et l'adapte à une tâche nouvelle, mais connexe. Les connaissances acquises lors de la formation initiale sont utilisées pour améliorer les performances de la nouvelle tâche. L 'apprentissage par transfert réduit le temps nécessaire à l'apprentissage d'une nouvelle tâche, en fonction de sa complexité. Il fonctionne en conservant les couches initiales du modèle qui capturent les caractéristiques générales et en remplaçant les couches finales par celles de la nouvelle tâche spécifique.
Le transfert de style artistique est une application intéressante de l'apprentissage par transfert dans le domaine de la vision par ordinateur. Cette technique permet à un modèle de transformer une image pour qu'elle corresponde au style de différentes œuvres d'art. Pour ce faire, un réseau neuronal est d'abord entraîné sur un vaste ensemble de données d'images associées à leurs styles artistiques. Grâce à ce processus, le modèle apprend à identifier les caractéristiques générales de l'image et les modèles de style.
Une fois le modèle formé, il peut être affiné pour appliquer le style d'une peinture spécifique à une nouvelle image. Le réseau s'adapte à la nouvelle image tout en préservant les caractéristiques du style appris, ce qui lui permet de créer un résultat unique combinant le contenu original et le style artistique sélectionné. Par exemple, vous pouvez prendre une photo d'une chaîne de montagnes et appliquer le style du Cri d'Edvard Munch, ce qui permet d'obtenir une image qui capture la scène tout en conservant le style audacieux et expressif de la peinture.
Fig. 5. Exemple de transfert de style artistique à l'aide de l'apprentissage par transfert.
Les différences entre les types d'apprentissage automatique
Maintenant que nous avons abordé les principaux types d'apprentissage automatique, examinons chacun d'entre eux de plus près pour vous aider à comprendre ce qui convient le mieux aux différentes applications.
Apprentissage supervisé: Ce type d'apprentissage est très précis lorsque l'on travaille avec des données étiquetées, mais il nécessite beaucoup de données et peut être sensible au bruit.
Apprentissage non supervisé: Il est utile pour explorer les données non étiquetées afin de trouver des modèles cachés, bien que les résultats puissent être moins précis et plus difficiles à interpréter.
L'apprentissage par renforcement: Il permet de former des agents à prendre des décisions étape par étape dans des environnements complexes, mais nécessite souvent une puissance de calcul importante.
Apprentissage par transfert: Cette approche utilise des modèles préformés pour accélérer la formation et améliorer les performances sur de nouvelles tâches, en particulier lorsque les données sont limitées.
Fig. 6. Comparaison de tous les types d'apprentissage automatique. Image par l'auteur.
Le choix du bon type d'apprentissage automatique dépend de plusieurs facteurs. L'apprentissage supervisé fonctionne bien si vous disposez d'un grand nombre de données étiquetées et d'une tâche claire. L'apprentissage non supervisé est utile pour l'exploration des données ou lorsque les exemples étiquetés sont rares. L'apprentissage par renforcement est idéal pour les tâches complexes nécessitant une prise de décision étape par étape, tandis que l'apprentissage par transfert est idéal lorsque les données sont limitées ou que les ressources sont restreintes. En tenant compte de ces facteurs, vous pouvez sélectionner l'approche la plus adaptée à votre projet de vision par ordinateur.
Conclusion
Les techniques d'apprentissage automatique permettent de relever un grand nombre de défis, en particulier dans des domaines tels que la vision par ordinateur. En comprenant les différents types d'apprentissage (supervisé, non supervisé, par renforcement et par transfert), vous pourrez choisir l'approche la mieux adaptée à vos besoins.
L'apprentissage supervisé est idéal pour les tâches nécessitant une grande précision et des données étiquetées, tandis que l'apprentissage non supervisé est idéal pour trouver des modèles dans des données non étiquetées. L'apprentissage par renforcement fonctionne bien dans les contextes complexes basés sur la prise de décision, et l'apprentissage par transfert est utile lorsque vous souhaitez vous appuyer sur des modèles pré-entraînés avec des données limitées.
Chaque méthode possède des atouts et des applications uniques, de la reconnaissance faciale à la robotique en passant par le transfert de style artistique. Le choix du bon type de produit peut ouvrir de nouvelles possibilités dans des secteurs tels que la santé, l'automobile et les loisirs.
Comment fonctionne l'apprentissage non supervisé dans l'IA ?
L'apprentissage non supervisé est un type d'apprentissage automatique qui utilise des données non étiquetées - le modèle ne reçoit pas de conseils ou de réponses correctes pendant la formation. Au lieu de cela, il apprend à découvrir des modèles et des idées par lui-même.
L'apprentissage non supervisé permet d'identifier des modèles à l'aide de trois méthodes principales :
L'une des principales applications de l'apprentissage non supervisé est la compression d'images, où des techniques telles que le regroupement par k-moyennes permettent de réduire la taille des images sans en affecter la qualité visuelle. Les pixels sont regroupés en grappes et chaque grappe est représentée par une couleur moyenne, ce qui permet d'obtenir une image avec moins de couleurs et une taille de fichier plus petite.
Cependant, l'apprentissage non supervisé est confronté à certaines limites. Sans réponses prédéfinies, il peut se heurter à des problèmes de précision et d'évaluation des performances. Il nécessite souvent un effort manuel pour interpréter les résultats et étiqueter les groupes, et il est sensible à des problèmes tels que les valeurs manquantes et le bruit, qui peuvent avoir un impact sur la qualité des résultats.