Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Réseaux de capsules (CapsNet)

Découvrez les réseaux capsulaires (CapsNets) et comment ils pallient les limites des CNN. Apprenez-en davantage sur le routage dynamique, les hiérarchies spatiales et la comparaison entre les CapsNets et YOLO26.

Les réseaux de capsules, souvent abrégés CapsNets, représentent une architecture avancée dans le domaine de l'apprentissage profond, conçue pour surmonter les limites spécifiques des réseaux neuronaux traditionnels. Introduits par Geoffrey Hinton et son équipe, les CapsNets tentent d'imiter l'organisation neuronale biologique du cerveau humain de manière plus fidèle que les modèles standard . Contrairement à un réseau neuronal convolutif (CNN) classique, qui excelle dans la détection des caractéristiques mais perd souvent les relations spatiales en raison du sous-échantillonnage, un réseau de capsules organise les neurones en groupes appelés « capsules ». Ces capsules codent non seulement la probabilité de la présence d'un objet, mais aussi ses propriétés spécifiques, telles que l'orientation, la taille et la texture, préservant ainsi efficacement les relations spatiales hiérarchiques au sein des données visuelles.

Les limites des CNN traditionnels

Pour comprendre l'innovation de CapsNets, il est utile d'examiner le fonctionnement des modèles standard de vision par ordinateur. Un CNN conventionnel utilise des couches d' extraction de caractéristiques suivies de couches de regroupement, en particulier le regroupement maximal, afin de réduire la charge de calcul et d'obtenir une invariance translationnelle. Cela signifie qu'un CNN peut identifier un « chat », quel que soit son emplacement dans l'image.

Cependant, ce processus élimine souvent les données de localisation précises, ce qui conduit au « problème Picasso » : un CNN peut classify correctement classify visage même si la bouche se trouve sur le front, simplement parce que toutes les caractéristiques nécessaires sont présentes. Les CapsNets résolvent ce problème en supprimant les couches de regroupement et en les remplaçant par un processus qui respecte les hiérarchies spatiales des objets.

Comment fonctionnent les réseaux en capsule

La capsule, un ensemble imbriqué de neurones qui produit un vecteur plutôt qu'une valeur scalaire, constitue l'élément de base de cette architecture. En mathématiques vectorielles, un vecteur possède à la fois une amplitude et une direction. Dans un CapsNet :

  • Magnitude (longueur) : représente la probabilité qu'une entité spécifique existe dans l'entrée actuelle.
  • Direction (Orientation) : encode les paramètres d'instanciation, tels que l'estimation de la pose, l'échelle et la rotation de l'objet.

Les capsules des couches inférieures (qui détectent des formes simples telles que les contours) prédisent la sortie des capsules des couches supérieures (qui détectent des objets complexes tels que les yeux ou les pneus). Cette communication est gérée par un algorithme appelé « routage dynamique » ou « routage par accord ». Si la prédiction d'une capsule de niveau inférieur correspond à l'état de la capsule de niveau supérieur , la connexion entre elles est renforcée. Cela permet au réseau de reconnaître des objets à partir de différents points de vue 3D sans nécessiter l'augmentation massive de données généralement nécessaire pour enseigner aux CNN la rotation et l'échelle.

Différences clés : CapsNets vs CNNs

Bien que ces deux architectures soient fondamentales pour la vision par ordinateur (CV), elles diffèrent dans la manière dont elles traitent et représentent les données visuelles :

  • Scalaire vs vecteur : les neurones CNN utilisent des sorties scalaires pour signifier la présence d'une caractéristique. Les CapsNets utilisent des vecteurs pour coder la présence (longueur) et les paramètres de pose (orientation).
  • Routage vs. Pooling : les CNN utilisent le pooling pour sous-échantillonner les données, ce qui entraîne souvent une perte des détails de localisation. Les CapsNets utilisent le routage dynamique pour préserver les données spatiales, ce qui les rend très efficaces pour les tâches nécessitant un suivi précis des objets .
  • Efficacité des données : comme les capsules comprennent implicitement les points de vue 3D et les transformations affines, elles peuvent souvent généraliser à partir de moins de données d'entraînement que les CNN, qui peuvent nécessiter de nombreux exemples pour apprendre toutes les rotations possibles d'un objet.

Applications concrètes

Bien que les CapsNets soient souvent plus coûteux en termes de calcul que les modèles optimisés tels que YOLO26, ils offrent des avantages distincts dans des domaines spécialisés :

  1. Analyse d'images médicales : dans le domaine de la santé, l'orientation et la forme précises d'une anomalie sont essentielles. Les chercheurs ont appliqué les CapsNets à la segmentation des tumeurs cérébrales, où le modèle doit distinguer une tumeur des tissus environnants en se basant sur des hiérarchies spatiales subtiles que les CNN standard pourraient lisser . Vous pouvez explorer les recherches connexes sur les réseaux de capsules en imagerie médicale.
  2. Reconnaissance des chiffres qui se chevauchent : CapsNets a obtenu des résultats de pointe sur MNIST , en particulier dans les scénarios où les chiffres se chevauchent. Comme le réseau suit la « pose » de chaque chiffre, il peut démêler deux chiffres qui se chevauchent (par exemple, un « 3 » au-dessus d'un « 5 ») en tant qu'objets distincts plutôt que de les fusionner en une seule carte de caractéristiques confuse .

Contexte pratique et mise en œuvre

Les réseaux Capsule sont avant tout une architecture de classification. Bien qu'ils offrent une robustesse théorique, les applications industrielles modernes privilégient souvent les CNN ou les Transformers à haute vitesse pour des performances en temps réel. Cependant, il est utile de comprendre les benchmarks de classification utilisés pour les CapsNets, tels que MNIST.

L'exemple suivant montre comment former un modèle moderne. Modèle YOLO sur l'ensemble MNIST à l'aide du ultralytics paquet. Cela correspond à la tâche de référence principale utilisée pour valider les réseaux de capsules.

from ultralytics import YOLO

# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")

# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)

# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")

L'avenir des capsules et de la vision artificielle

Les principes qui sous-tendent les réseaux de capsules continuent d'influencer la recherche sur la sécurité et l'interprétabilité de l'IA. En modélisant explicitement les relations entre les parties et le tout, les capsules offrent une alternative « boîte transparente » à la nature « boîte noire » des réseaux neuronaux profonds, rendant les décisions plus explicables. Les développements futurs visent à combiner la robustesse spatiale des capsules avec la vitesse d'inférence d'architectures telles que YOLO11 ou la plus récente YOLO26 afin d'améliorer les performances en matière de détection d'objets 3D et de robotique. Les chercheurs explorent également les capsules matricielles avec routage EM afin de réduire davantage le coût de calcul de l'algorithme d'accord.

Pour les développeurs qui cherchent à gérer efficacement des ensembles de données et à former des modèles, Ultralytics fournit un environnement unifié pour annoter les données, former dans le cloud et déployer des modèles qui équilibrent la vitesse des CNN avec la précision requise pour les tâches de vision complexes .

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant