Glossaire

Réseau neuronal convolutif (CNN)

Découvrez comment les réseaux neuronaux convolutifs (CNN) alimentent la vision par ordinateur moderne. Apprenez-en davantage sur les couches, les applications et comment exécuter Ultralytics pour une IA en temps réel.

Un réseau neuronal convolutif (CNN) est une architecture d'apprentissage profond spécialisée conçue pour traiter des données avec une topologie de type grille, notamment des images numériques. Inspirés de la structure biologique du cortex visuel, les CNN sont les seuls à pouvoir préserver les relations spatiales au sein des données d'entrée. Contrairement aux réseaux neuronaux traditionnels qui aplatissent une image en une longue liste de chiffres, les CNN analysent de petites régions superposées d'une image pour apprendre automatiquement les hiérarchies de caractéristiques, des simples contours et textures aux formes et objets complexes. Cette capacité en fait la technologie fondamentale des systèmes modernes de vision par ordinateur (CV).

Fonctionnement des réseaux neuronaux convolutifs

La puissance d'un CNN réside dans sa capacité à réduire une image complexe sous une forme plus facile à traiter sans perdre les caractéristiques essentielles à l'obtention d'une bonne prédiction. Ceci est réalisé grâce à un pipeline de couches distinctes qui transforment le volume d'entrée en une classe ou une valeur de sortie :

Couche de convolution: Il s'agit de l'élément central. Elle utilise un ensemble de filtres (ou noyaux) apprenables qui glissent sur l'image d'entrée comme une lampe torche. À chaque position, le filtre effectue une opération mathématique appelée convolution, créant une carte de caractéristiques qui met en évidence des motifs spécifiques tels que des lignes horizontales ou des dégradés de couleurs.
Fonction d'activation: après la convolution, une fonction non linéaire est appliquée à la sortie. Le choix le plus courant est la fonction ReLU (Rectified Linear Unit), qui transforme les valeurs de pixels négatives en zéro. Cela introduit une non-linéarité, permettant au réseau d'apprendre des modèles complexes au-delà des simples relations linéaires.
Couche de regroupement : également appelée sous-échantillonnage, cette couche réduit la dimensionnalité des cartes de caractéristiques. Des techniques telles que le regroupement maximal ne conservent que les caractéristiques les plus importantes (les valeurs les plus élevées) dans une région, ce qui réduit la charge de calcul et aide à prévenir le surapprentissage.
Couche entièrement connectée : lors de la dernière étape, les caractéristiques traitées sont aplaties et introduites dans un réseau neuronal standard (NN). Cette couche utilise les caractéristiques de haut niveau identifiées par les couches précédentes pour effectuer une classification ou une prédiction finale, telle que « chat » ou « chien ».

Applications concrètes

Les CNN ont transformé les industries en automatisant les tâches visuelles avec une précision surhumaine .

Diagnostic médical : dans le domaine de la santé, les CNN aident les radiologues en identifiant les anomalies dans les examens médicaux plus rapidement que l'œil humain. Par exemple, les modèles d'apprentissage profond analysent les IRM et les scanners pour detect les detect signes de tumeurs ou de fractures. Les recherches impliquant l' IA enradiologie mettent en évidence la manière dont ces outils améliorent la cohérence et la rapidité du diagnostic.
Systèmes autonomes : les voitures autonomes s'appuient fortement sur les CNN pour percevoir leur environnement. Des modèles tels que YOLO26 utilisent des structures CNN efficaces pour effectuer une détection d'objets en temps réel, identifiant les piétons, les panneaux de signalisation et les autres véhicules afin de prendre des décisions de conduite en une fraction de seconde.

CNN vs Vision Transformers (ViT)

Alors que les CNN ont longtemps été la norme pour les tâches de vision, une nouvelle architecture appelée Vision Transformer (ViT) a fait son apparition.

Les CNN traitent les images à l'aide de caractéristiques locales et sont très efficaces sur les petits ensembles de données en raison de leur « biais inductif » (ils supposent que les pixels proches sont liés). Ils excellent dans les scénarios nécessitant une inférence en temps réel sur des appareils périphériques.
Les ViT divisent les images en patchs et les traitent à l'aide de mécanismes d'auto-attention globaux. Cela leur permet de capturer les dépendances à longue distance dans une image, mais nécessite généralement des ensembles de données massifs et une plus grande puissance de calcul pour un apprentissage efficace.

Exemple de mise en œuvre

Les bibliothèques modernes facilitent l'utilisation des modèles basés sur les CNN. Le ultralytics Le package donne accès à des modèles de pointe tels que YOLO26, qui intègrent des architectures CNN hautement optimisées pour une inférence rapide.

L'exemple suivant montre comment charger un modèle CNN pré-entraîné et exécuter une prédiction :

from ultralytics import YOLO

# Load a YOLO26 model, which uses an advanced CNN architecture
model = YOLO("yolo26n.pt")

# Run inference on an image to identify objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the prediction results
results[0].show()

Outils pour le développement

Le développement des CNN est soutenu par un écosystème robuste d'outils open source. Les ingénieurs utilisent généralement des frameworks tels que PyTorch ou TensorFlow pour créer des architectures personnalisées. Ces bibliothèques fournissent les tensor de bas niveau nécessaires à la convolution et à la rétropropagation.

Pour les équipes qui cherchent à rationaliser le cycle de vie des projets de vision par ordinateur, de la collecte de données au déploiement, Ultralytics offre une solution complète. Elle simplifie les flux de travail complexes, permettant aux développeurs de se concentrer sur l'application des CNN pour résoudre les problèmes commerciaux plutôt que sur la gestion de l' infrastructure. De plus, les modèles peuvent être exportés vers des formats tels que ONNX ou TensorRT pour un déploiement haute performance sur des appareils périphériques.

Réseau neuronal convolutif (CNN)

Former les modèlesYOLO d'Ultralytics pour rationaliser les flux de travail dans tous les secteurs d'activité

Solution de licence d'entreprise flexible pour dynamiser votre innovation

Former des modèles d'IA en quelques secondes avec Ultralytics YOLO

Fonctionnement des réseaux neuronaux convolutifs

Applications concrètes

CNN vs Vision Transformers (ViT)

Exemple de mise en œuvre

Outils pour le développement

En savoir plus dans cette catégorie

12 cas d'utilisation de l'imagerie aérienne grâce à la vision par ordinateur

Qu'est-ce que l'estimation monoculaire de la profondeur ? Aperçu général

Un aperçu de l'utilisationYOLO Ultralytics pour la détection des menaces par l'IA

Rejoindre la communauté Ultralytics