Découvrez comment la reconnaissance d'images utilise l'IA et l'apprentissage profond pour identifier les données visuelles. Explorez des applications concrètes et déployez Ultralytics pour obtenir des résultats à la pointe de la technologie.
La reconnaissance d'images est une technologie fondamentale dans le domaine plus large de la vision par ordinateur (CV) qui permet aux systèmes logiciels d'identifier des objets, des personnes, des lieux et du texte dans des images numériques. En analysant le contenu en pixels d'une image ou d'une trame vidéo, cette technologie tente d'imiter les capacités de perception visuelle de l'œil et du cerveau humains. Grâce à l'intelligence artificielle (IA), la reconnaissance d'images transforme des données visuelles non structurées en informations structurées et exploitables, servant de base à l' automatisation dans des secteurs allant des soins de santé au transport autonome.
Les systèmes modernes de reconnaissance d'images ont dépassé la programmation traditionnelle basée sur des règles pour s'appuyer largement sur des algorithmes d'apprentissage profond (DL). L'architecture la plus répandue utilisée pour ces tâches est le réseau neuronal convolutif (CNN). Un CNN traite les images comme une grille de valeurs, représentant généralement les canaux de couleur rouge, vert et bleu (RVB), et les fait passer par plusieurs couches d'opérations mathématiques.
Au cours de ce processus, le réseau effectue une extraction de caractéristiques. Les couches initiales peuvent detect des motifs géométriques detect tels que des bords ou des coins, tandis que les couches plus profondes agrègent ces motifs pour reconnaître des structures complexes telles que des yeux, des roues ou des feuilles. Pour atteindre une grande précision, ces modèles nécessitent de grandes quantités de données d'entraînement étiquetées. Les ensembles de données publics à grande échelle, tels que ImageNet, aident les modèles à apprendre la probabilité statistique qu'un agencement visuel spécifique corresponde à un concept tel que « chat », « vélo » ou « panneau stop ».
Bien que le terme « reconnaissance d'images » soit souvent utilisé comme une expression fourre-tout, il se distingue d'autres tâches spécifiques de vision par ordinateur. Il est essentiel de comprendre ces nuances pour choisir le modèle adapté à un projet :
L'utilité de la reconnaissance d'images s'étend à pratiquement tous les secteurs où des données visuelles sont générées.
Pour les développeurs et les chercheurs, la mise en œuvre de la reconnaissance d'images est devenue beaucoup plus accessible grâce à des
modèles de pointe tels que YOLO26, qui prend en charge
la classification, la détection et la segmentation de manière native. L'exemple suivant montre comment effectuer une reconnaissance
(plus précisément une détection d'objet) sur une image à l'aide de la ultralytics Paquet Python .
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (n for nano, fastest speed)
model = YOLO("yolo26n.pt")
# Run inference on an image to recognize and locate objects
# The source can be a file path, URL, or webcam (source=0)
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes and labels
results[0].show()
Pour les équipes qui souhaitent annoter leurs propres ensembles de données et former des modèles personnalisés dans le cloud, la Ultralytics offre un environnement simplifié pour gérer l' ensemble du cycle de vie d'un projet de reconnaissance d'images, de la collecte des données au déploiement.
À mesure que la puissance de calcul augmente, la reconnaissance d'images évolue vers la compréhension vidéo, où les systèmes analysent le contexte temporel entre les images. De plus, l'intégration de l' IA générative permet aux systèmes non seulement de reconnaître les images, mais aussi de générer des descriptions textuelles détaillées de celles-ci, comblant ainsi le fossé entre le traitement du langage naturel (NLP) et la vision.