Glossaire

Réseau neuronal convolutif (CNN)

Découvrez comment les réseaux neuronaux convolutifs (CNN) révolutionnent la vision par ordinateur et alimentent l'IA dans les soins de santé, les voitures autonomes et bien plus encore.

Un réseau neuronal convolutif (CNN) est un type spécialisé de réseau neuronal (NN) qui est très efficace pour traiter les données ayant une topologie en grille, comme les images. Inspirés du cortex visuel humain, les CNN apprennent automatiquement et de manière adaptative des hiérarchies spatiales de caractéristiques à partir des données d'entrée. Cela en fait l'architecture de base pour la plupart des tâches modernes de vision par ordinateur, où ils ont obtenu des résultats de pointe dans tous les domaines, de la classification d'images à la détection d'objets.

Le fonctionnement de Cnn

Contrairement à un réseau neuronal standard où chaque neurone d'une couche est connecté à chaque neurone de la couche suivante, les CNN utilisent une opération mathématique spéciale appelée convolution. Cela permet au réseau d'apprendre des caractéristiques dans un champ réceptif local, en préservant les relations spatiales entre les pixels.

L'architecture typique d'un CNN se compose de plusieurs couches clés :

  1. Couche convolutive: Il s'agit de l'élément de base où un filtre, ou noyau, glisse sur l'image d'entrée pour produire des cartes de caractéristiques. Ces cartes mettent en évidence des motifs tels que les bords, les coins et les textures. La taille de ces filtres et les motifs qu'ils détectent sont appris au cours de l'apprentissage du modèle.
  2. Couche d'activation: Après chaque convolution, une fonction d'activation telle que ReLU est appliquée pour introduire la non-linéarité, ce qui permet au modèle d'apprendre des modèles plus complexes.
  3. Couche de mise en commun (sous-échantillonnage): Cette couche réduit les dimensions spatiales (largeur et hauteur) des cartes de caractéristiques, ce qui diminue la charge de calcul et rend les caractéristiques détectées plus résistantes aux changements de position et d'orientation. Un article classique sur le sujet est ImageNet Classification with Deep Convolutional Neural Networks (Classification d'ImageNet avec des réseaux neuronaux convolutionnels profonds).
  4. Couche entièrement connectée: Après plusieurs couches de convolution et de mise en commun, les caractéristiques de haut niveau sont aplaties et transmises à une couche entièrement connectée, qui effectue la classification sur la base des caractéristiques apprises.

Cnn par rapport à d'autres architectures

Bien que les CNN soient un type de modèle d'apprentissage profond, ils diffèrent considérablement des autres architectures.

  • Réseaux neuronaux (NN): Un réseau neuronal standard traite les données d'entrée comme un vecteur plat, perdant ainsi toute information spatiale. Les réseaux neuronaux conservent ces informations, ce qui les rend idéaux pour l'analyse d'images.
  • Transformateurs de vision (ViTs): Contrairement aux CNN, qui ont un fort biais inductif pour la localité spatiale, ViTs traitent une image comme une séquence de patchs et utilisent une méthode d'analyse de l'image. l'attention portée à soi pour apprendre les relations globales. Les ViT nécessitent souvent plus de données pour être formés, mais peuvent exceller dans les tâches où le contexte à long terme est important. De nombreux modèles modernes, comme les RT-DETRutilisent une approche hybride, combinant un CNN backbone avec un transformateur detection head.

Applications dans le monde réel

Les CNN sont la force motrice d'innombrables applications dans le monde réel :

  • Détection d'objets: Les modèles de la famille YOLO d'Ultralytics, tels que YOLOv8 et YOLO11, utilisent des structures CNN pour identifier et localiser des objets dans des images et des vidéos avec une rapidité et une précision remarquables. Cette technologie est cruciale pour tout ce qui concerne l'IA dans les systèmes automobiles et la gestion des stocks pilotée par l'IA.
  • Analyse d'images médicales: Dans le domaine de la santé, les CNN aident les radiologues à analyser les scanners médicaux (rayons X, IRM, CT) pour détecter les tumeurs, les fractures et d'autres anomalies. Cette application permet d'améliorer la rapidité et la cohérence des diagnostics, comme le soulignent les recherches menées par des institutions telles que les National Institutes of Health (NIH). Vous pouvez explorer l'analyse d'images médicales avec Ultralytics pour plus d'informations.
  • Segmentation d'images: Pour les tâches nécessitant une compréhension au niveau du pixel, comme dans les véhicules autonomes qui doivent distinguer la route d'un piéton, les architectures basées sur le CNN, comme U-Net, sont largement utilisées pour la segmentation d'images.

Outils et cadres

Le développement et le déploiement des CNN s'appuient sur des outils et des cadres puissants :

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers