Glossaire

Reconnaissance d'images

Découvre comment la reconnaissance d'images donne à l'IA les moyens de classer et de comprendre les visuels, ce qui favorise l'innovation dans les domaines de la santé, de la vente au détail, de la sécurité, et bien plus encore.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

La reconnaissance d'images est une branche cruciale de l'intelligence artificielle (IA) et de la vision par ordinateur (VA) qui permet aux machines d'identifier et d'interpréter des informations visuelles à partir d'images ou de vidéos. Elle va au-delà de la simple vision des pixels ; elle implique la compréhension du contenu, tel que les objets, les personnes, les scènes et les actions représentés dans les données visuelles. Cette technologie constitue la base d'innombrables applications, permettant aux systèmes de "voir" et de donner un sens au monde d'une manière similaire à celle des humains.

Comment fonctionne la reconnaissance d'images

À la base, la reconnaissance d'images repose fortement sur l'apprentissage automatique (ML), en particulier sur les algorithmes d'apprentissage profond (DL). Les réseaux neuronaux convolutifs (CNN) en sont un élément fondamental, conçus pour apprendre automatiquement et de manière adaptative des hiérarchies spatiales de caractéristiques à partir d'images. Le processus consiste généralement à entraîner un modèle sur de vastes ensembles de données d'images étiquetées, comme le célèbre ensemble de données ImageNet, où chaque image est étiquetée avec des informations sur son contenu, souvent organisées à l'aide de structures telles que la hiérarchie WordNet. Au cours de la formation, le modèle apprend à associer des motifs et des caractéristiques visuelles spécifiques (comme les bords, les textures, les formes) à différentes étiquettes ou catégories. Des architectures comme ResNet ont considérablement amélioré les performances de ces tâches. Une fois entraîné, le modèle peut analyser de nouvelles images inédites et prédire les objets ou les concepts qu'elles contiennent. La compréhension de ces concepts peut être approfondie grâce à des ressources comme la spécialisation Deep Learning. Si ImageNet est essentiel pour la classification, des ensembles de données comme COCO sont également vitaux pour des tâches plus larges de compréhension visuelle. Un entraînement efficace des modèles nécessite une planification et une exécution minutieuses.

Distinctions par rapport aux termes apparentés

Bien qu'elle soit liée à d'autres tâches de vision par ordinateur, la reconnaissance d'images est souvent utilisée comme un terme plus large englobant plusieurs capacités spécifiques. Il est important de la distinguer des tâches plus restreintes :

La reconnaissance d'images peut parfois se référer spécifiquement à la classification d'images, mais implique souvent la capacité plus large de comprendre le contenu d'une image, ce qui peut impliquer la détection ou la segmentation en fonction des besoins de l'application.

Applications dans le monde réel

La reconnaissance d'images alimente une large gamme d'applications dans divers secteurs :

Le domaine est en constante évolution, stimulé par la recherche partagée dans des lieux tels que la Conférence sur la vision informatique et la reconnaissance des formes (CVPR) et des organisations telles que la Fondation pour la vision informatique (CVF). Lis des idées pratiques sur le blogGoogle Cloud AI.

Outils et formation

Le développement d'applications de reconnaissance d'images implique souvent l'utilisation de bibliothèques et de cadres spécialisés. Les technologies clés comprennent :

Tout lire