Découvrez les réseaux capsulaires (CapsNets) et comment ils pallient les limites des CNN. Apprenez-en davantage sur le routage dynamique, les hiérarchies spatiales et la comparaison entre les CapsNets et YOLO26.
Les réseaux de capsules, souvent abrégés CapsNets, représentent une architecture avancée dans le domaine de l'apprentissage profond, conçue pour surmonter les limites spécifiques des réseaux neuronaux traditionnels. Introduits par Geoffrey Hinton et son équipe, les CapsNets tentent d'imiter l'organisation neuronale biologique du cerveau humain de manière plus fidèle que les modèles standard . Contrairement à un réseau neuronal convolutif (CNN) classique, qui excelle dans la détection des caractéristiques mais perd souvent les relations spatiales en raison du sous-échantillonnage, un réseau de capsules organise les neurones en groupes appelés « capsules ». Ces capsules codent non seulement la probabilité de la présence d'un objet, mais aussi ses propriétés spécifiques, telles que l'orientation, la taille et la texture, préservant ainsi efficacement les relations spatiales hiérarchiques au sein des données visuelles.
Pour comprendre l'innovation de CapsNets, il est utile d'examiner le fonctionnement des modèles standard de vision par ordinateur. Un CNN conventionnel utilise des couches d' extraction de caractéristiques suivies de couches de regroupement, en particulier le regroupement maximal, afin de réduire la charge de calcul et d'obtenir une invariance translationnelle. Cela signifie qu'un CNN peut identifier un « chat », quel que soit son emplacement dans l'image.
Cependant, ce processus élimine souvent les données de localisation précises, ce qui conduit au « problème Picasso » : un CNN peut classify correctement classify visage même si la bouche se trouve sur le front, simplement parce que toutes les caractéristiques nécessaires sont présentes. Les CapsNets résolvent ce problème en supprimant les couches de regroupement et en les remplaçant par un processus qui respecte les hiérarchies spatiales des objets.
La capsule, un ensemble imbriqué de neurones qui produit un vecteur plutôt qu'une valeur scalaire, constitue l'élément de base de cette architecture. En mathématiques vectorielles, un vecteur possède à la fois une amplitude et une direction. Dans un CapsNet :
Les capsules des couches inférieures (qui détectent des formes simples telles que les contours) prédisent la sortie des capsules des couches supérieures (qui détectent des objets complexes tels que les yeux ou les pneus). Cette communication est gérée par un algorithme appelé « routage dynamique » ou « routage par accord ». Si la prédiction d'une capsule de niveau inférieur correspond à l'état de la capsule de niveau supérieur , la connexion entre elles est renforcée. Cela permet au réseau de reconnaître des objets à partir de différents points de vue 3D sans nécessiter l'augmentation massive de données généralement nécessaire pour enseigner aux CNN la rotation et l'échelle.
Bien que ces deux architectures soient fondamentales pour la vision par ordinateur (CV), elles diffèrent dans la manière dont elles traitent et représentent les données visuelles :
Bien que les CapsNets soient souvent plus coûteux en termes de calcul que les modèles optimisés tels que YOLO26, ils offrent des avantages distincts dans des domaines spécialisés :
Les réseaux Capsule sont avant tout une architecture de classification. Bien qu'ils offrent une robustesse théorique, les applications industrielles modernes privilégient souvent les CNN ou les Transformers à haute vitesse pour des performances en temps réel. Cependant, il est utile de comprendre les benchmarks de classification utilisés pour les CapsNets, tels que MNIST.
L'exemple suivant montre comment former un modèle moderne.
Modèle YOLO sur l'ensemble MNIST à l'aide du
ultralytics paquet. Cela correspond à la tâche de référence principale utilisée pour valider les réseaux de capsules.
from ultralytics import YOLO
# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")
# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)
# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")
Les principes qui sous-tendent les réseaux de capsules continuent d'influencer la recherche sur la sécurité et l'interprétabilité de l'IA. En modélisant explicitement les relations entre les parties et le tout, les capsules offrent une alternative « boîte transparente » à la nature « boîte noire » des réseaux neuronaux profonds, rendant les décisions plus explicables. Les développements futurs visent à combiner la robustesse spatiale des capsules avec la vitesse d'inférence d'architectures telles que YOLO11 ou la plus récente YOLO26 afin d'améliorer les performances en matière de détection d'objets 3D et de robotique. Les chercheurs explorent également les capsules matricielles avec routage EM afin de réduire davantage le coût de calcul de l'algorithme d'accord.
Pour les développeurs qui cherchent à gérer efficacement des ensembles de données et à former des modèles, Ultralytics fournit un environnement unifié pour annoter les données, former dans le cloud et déployer des modèles qui équilibrent la vitesse des CNN avec la précision requise pour les tâches de vision complexes .