Glossaire

Convolution

Découvrez comment la convolution alimente l'IA dans le domaine de la vision par ordinateur, permettant d'effectuer avec précision des tâches telles que la détection d'objets, la reconnaissance d'images et l'imagerie médicale.

La convolution est une opération fondamentale dans l'apprentissage profond (DL), en particulier dans le domaine de la vision par ordinateur (CV). Elle constitue le principal élément constitutif des réseaux neuronaux convolutifs (CNN), permettant aux modèles d'apprendre automatiquement et efficacement des caractéristiques hiérarchiques à partir de données sous forme de grille, telles que des images. Le processus consiste à faire glisser un petit filtre, appelé noyau, sur une image d'entrée pour produire des cartes de caractéristiques qui mettent en évidence des motifs spécifiques tels que les bords, les textures ou les formes. Cette méthode s'inspire de l'organisation du cortex visuel animal et est très efficace pour les tâches où les relations spatiales entre les points de données sont importantes.

Comment fonctionne la convolution

À la base, une convolution est une opération mathématique qui fusionne deux ensembles d'informations. Dans le contexte d'un CNN, elle combine les données d'entrée (les valeurs des pixels d'une image) avec un noyau. Le noyau est une petite matrice de poids qui agit comme un détecteur de caractéristiques. Ce noyau glisse sur la hauteur et la largeur de l'image d'entrée et, à chaque position, il effectue une multiplication par élément avec la partie de l'image qui se chevauche. Les résultats sont additionnés pour créer un seul pixel dans la carte de caractéristiques de sortie. Ce processus de glissement est répété sur l'ensemble de l'image.

En utilisant différents noyaux, un CNN peut apprendre à détecter un large éventail de caractéristiques. Les premières couches peuvent apprendre à reconnaître des motifs simples tels que les bords et les couleurs, tandis que les couches plus profondes peuvent combiner ces caractéristiques de base pour identifier des structures plus complexes telles que des yeux, des roues ou du texte. C'est cette capacité à construire une hiérarchie de caractéristiques visuelles qui confère aux CNN leur puissance dans les tâches de vision. Ce processus est rendu efficace sur le plan informatique grâce à deux principes clés :

  • Partage des paramètres: Le même noyau est utilisé pour l'ensemble de l'image, ce qui réduit considérablement le nombre total de paramètres pouvant être appris par rapport à un réseau entièrement connecté. Ce concept d'utilisation efficace des paramètres permet également au modèle de mieux se généraliser.
  • Localité spatiale: L'opération suppose que les pixels proches les uns des autres sont plus étroitement liés que les pixels éloignés, un biais inductif fort qui est très efficace pour les images naturelles.

Importance de l'apprentissage profond

La convolution est la pierre angulaire de la vision par ordinateur moderne. Des modèles comme Ultralytics YOLO utilisent largement les couches convolutives dans leurs architectures de base pour une extraction puissante des caractéristiques. Cela permet un large éventail d'applications, de la détection d'objets et de la segmentation d'images à des tâches plus complexes. L'efficacité et l'efficience de la convolution en ont fait la méthode de référence pour le traitement des images et d'autres données spatiales, formant la base de nombreuses architectures de pointe détaillées dans des ressources telles que l'histoire des modèles de vision.

Applications dans le monde réel

  • Analyse d'images médicales: Dans le domaine de l'IA pour les soins de santé, les CNN utilisent des convolutions pour analyser les scanners médicaux tels que les IRM ou les tomodensitogrammes. Les noyaux peuvent être entraînés à détecter les textures et les formes spécifiques caractéristiques des tumeurs ou d'autres anomalies, ce qui aide les radiologues à établir des diagnostics plus rapides et plus précis. Pour en savoir plus sur ces avancées, consultez des revues telles que Radiology : Artificial Intelligence.
  • Véhicules autonomes: Les voitures autonomes s'appuient sur les CNN pour percevoir leur environnement. Les convolutions traitent les données des caméras en temps réel pour identifier les piétons, les autres véhicules, les voies de circulation et les panneaux de signalisation. Cela permet au système de la voiture d'acquérir une compréhension globale de son environnement et de naviguer en toute sécurité, comme le montre la technologie développée par des entreprises telles que Waymo.

Convolution et concepts connexes

Il est utile de distinguer la convolution des autres opérations des réseaux neuronaux :

  • Couches entièrement connectées : Dans une couche entièrement connectée, chaque neurone est connecté à chaque neurone de la couche précédente. Pour les images, cette méthode est très inefficace car elle ne tient pas compte de la structure spatiale et entraîne un nombre massif de paramètres. La convolution, avec sa connectivité locale et le partage des paramètres, est beaucoup plus évolutive et mieux adaptée aux données d'images.
  • Transformateurs de vision (ViT) : Contrairement à la détection des caractéristiques locales des CNN, les transformateurs de vision utilisent un mécanisme d'auto-attention pour modéliser les relations globales entre les différentes parties de l'image. Bien que puissants, les transformateurs de vision nécessitent généralement des ensembles de données plus importants pour apprendre ces relations à partir de zéro, alors que le biais inductif des convolutions les rend plus efficaces en termes de données. Les modèles hybrides, comme RT-DETR, visent à combiner les points forts des deux approches.

Outils et formation

L'implémentation et l'entraînement de modèles utilisant la convolution sont facilités par divers frameworks d'apprentissage profond. Des bibliothèques comme PyTorch(site officiel de PyTorch) et TensorFlow(site officiel de TensorFlow) fournissent des outils robustes pour construire des CNN. Des API de haut niveau telles que Keras simplifient encore le développement.

Pour une expérience simplifiée, des plateformes comme Ultralytics HUB permettent aux utilisateurs de gérer des ensembles de données, d'effectuer l'entraînement de modèles et de déployer des modèles puissants comme YOLO11 en toute simplicité. La compréhension des concepts fondamentaux tels que la convolution, la taille du noyau, l'enjambement, le remplissage et le champ réceptif qui en résulte est cruciale pour un apprentissage efficace du modèle et la conception de l'architecture.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers