Glossaire

Convolution

Apprends comment la convolution alimente l'IA dans la vision par ordinateur, permettant des tâches telles que la détection d'objets, la reconnaissance d'images et l'imagerie médicale avec précision.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

La convolution est une opération mathématique fondamentale largement utilisée en intelligence artificielle, notamment dans le domaine de la vision par ordinateur (VA). Elle constitue l'élément de base des réseaux neuronaux convolutifs (CNN), permettant à ces réseaux d'apprendre efficacement des modèles hiérarchiques à partir de données en forme de grille, telles que des images. Le processus consiste à appliquer un petit filtre, souvent appelé noyau, sur un signal d'entrée ou une image pour produire un résultat connu sous le nom de carte de caractéristiques. Ces cartes de caractéristiques mettent en évidence des motifs spécifiques tels que les bords, les textures ou les formes détectés par le noyau.

Comment fonctionne la convolution

Imagine que tu fasses glisser une petite loupe (le noyau) sur une image plus grande (l'entrée). À chaque position, la loupe se concentre sur une petite zone de l'image. L'opération de convolution calcule une somme pondérée des valeurs des pixels à l'intérieur de cette zone, en utilisant les poids définis par le noyau. Cette valeur calculée unique devient un pixel dans la carte des caractéristiques de sortie. Le noyau glisse systématiquement sur l'ensemble de l'image d'entrée, étape par étape (définie par un paramètre appelé "stride"), créant ainsi une carte de caractéristiques complète. Différents noyaux sont conçus pour détecter différentes caractéristiques ; par exemple, un noyau peut détecter les bords horizontaux, tandis qu'un autre détecte les coins. En utilisant plusieurs noyaux dans une seule couche, un CNN peut extraire un riche ensemble de caractéristiques de l'entrée. Tu peux explorer les explications visuelles de ce processus dans des ressources telles que les notes de cours Stanford CS231n sur les CNN.

Composants clés de la convolution

  • Données d'entrée : Il s'agit généralement d'une image multicanal (par exemple, les canaux RVB) ou de la carte de caractéristiques de sortie d'une couche précédente.
  • Noyau (filtre) : Une petite matrice de poids qui définit la caractéristique à détecter. Ces poids sont appris au cours du processus d'apprentissage du modèle.
  • Carte des caractéristiques : La sortie de l'opération de convolution, représentant la présence et l'emplacement spatial des caractéristiques détectées.
  • Stride : Le nombre de pixels que le noyau déplace sur l'entrée à chaque étape.
  • Remplissage : Ajout de pixels (généralement des zéros) autour du bord de l'image d'entrée pour contrôler les dimensions spatiales de la carte de caractéristiques de sortie.

Applications de la convolution

Les couches convolutives sont essentielles dans de nombreuses applications modernes de l'IA :

1. Détection d'objets

Dans la détection d'objets, les CNN utilisent des convolutions pour identifier les objets et leur emplacement dans une image à l'aide de boîtes de délimitation. Des modèles comme Ultralytics YOLO s'appuient fortement sur les couches convolutives pour extraire des caractéristiques à différentes échelles, ce qui permet de détecter efficacement divers objets. C'est essentiel pour des applications comme les véhicules autonomes, où la détection des piétons, des voitures et des panneaux de signalisation en temps réel est vitale pour la sécurité. En savoir plus sur les solutions d'IA dans l'automobile.

2. Analyse d'images médicales

La convolution joue un rôle essentiel dans l'analyse des images médicales, en aidant les radiologues à analyser des scans tels que les radiographies, les tomodensitogrammes et les IRM. Les modèles d'IA utilisant les CNN peuvent détecter des anomalies subtiles, telles que des tumeurs ou des fractures, souvent plus rapidement et parfois plus précisément que les experts humains seuls. Par exemple, l 'utilisation de YOLOv11 pour la détection des tumeurs démontre cette capacité. Explore davantage les solutions d'IA dans le domaine de la santé.

Convolution et concepts connexes

La convolution est souvent utilisée parallèlement à d'autres opérations et concepts au sein des réseaux neuronaux :

  • Mise en commun : Tandis que la convolution extrait les caractéristiques, les couches de mise en commun (comme Max Pooling ou Average Pooling) réduisent les dimensions spatiales (sous-échantillonnage) des cartes de caractéristiques. Cela permet de réduire la charge de calcul et de rendre la représentation des caractéristiques plus robuste aux petites variations spatiales. La mise en commun résume les caractéristiques d'une région, tandis que la convolution les extrait. Tu trouveras plus de détails dans les ressources expliquant les couches de mise en commun dans les CNN.
  • Extraction de caractéristiques : C'est un terme plus large qui désigne le processus de transformation des données brutes en caractéristiques numériques utilisables pour l'apprentissage automatique. La convolution est une technique spécifique et très efficace pour l'extraction automatique de caractéristiques à partir de données en grille, en particulier dans les CNN.
  • Couches entièrement connectées : Contrairement aux couches convolutives qui appliquent les noyaux localement et partagent les poids, les couches entièrement connectées relient chaque neurone de la couche précédente à chaque neurone de la couche actuelle. Elles apparaissent généralement vers la fin d'une architecture CNN pour effectuer une classification ou une régression basée sur les caractéristiques de haut niveau extraites par les couches convolutives et de mise en commun. En savoir plus sur les principes de base des réseaux neuronaux (RN).

Comprendre la convolution est essentiel pour saisir comment de nombreux modèles d'IA de pointe, y compris ceux disponibles sur Ultralytics HUB, interprètent les informations visuelles. Des outils tels que PyTorch et TensorFlow fournissent des implémentations efficaces des opérations de convolution. Les bibliothèques telles que OpenCV utilisent également la convolution pour les tâches traditionnelles de traitement d'image telles que le flou et l'accentuation.

Tout lire