Glossaire

Capsule Networks (CapsNet)

Découvre les réseaux de capsules (CapsNets) : Une architecture de réseau neuronal révolutionnaire qui excelle dans les hiérarchies spatiales et les relations entre les caractéristiques.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Les réseaux de capsules, souvent appelés CapsNets, représentent un nouveau type d'architecture de réseau neuronal conçu pour remédier à certaines limites des réseaux neuronaux convolutionnels (CNN) traditionnels, notamment en ce qui concerne la gestion des hiérarchies spatiales et des relations entre les caractéristiques des images. Contrairement aux CNN, qui utilisent des sorties scalaires issues d'opérations de mise en commun, les CapsNets emploient des vecteurs pour représenter les caractéristiques, ce qui leur permet de capturer des informations plus détaillées sur l'orientation et les positions spatiales relatives des objets. Cette capacité rend les CapsNets particulièrement efficaces dans des tâches telles que la reconnaissance d'images, où la compréhension de la pose et des relations spatiales des objets est cruciale.

Concepts de base

Les CapsNets introduisent le concept de "capsules", qui sont des groupes de neurones dont le vecteur d'activité représente diverses propriétés d'un type d'entité spécifique, comme un objet ou une partie d'objet. La longueur du vecteur d'activité représente la probabilité que l'entité existe, tandis que son orientation code les paramètres d'instanciation (par exemple, la position, la taille, l'orientation). Les capsules actives à un niveau donné font des prédictions, par le biais de matrices de transformation, pour les paramètres d'instanciation des capsules de niveau supérieur. Lorsque plusieurs prédictions concordent, une capsule de niveau supérieur devient active. Ce processus est connu sous le nom de "routage par accord".

Principales différences avec les réseaux neuronaux convolutifs (CNN)

Bien que les CapsNets et les réseaux neuronaux convolutifs (CNN) soient tous deux utilisés dans les tâches de vision par ordinateur (VA), ils diffèrent considérablement dans leur approche du traitement des informations spatiales :

  • Représentation des caractéristiques: Les CNN utilisent des valeurs scalaires pour représenter les caractéristiques, alors que les CapsNets utilisent des vecteurs, ce qui leur permet de capturer des informations plus détaillées sur la pose et les propriétés des objets.
  • Opérations de mise en commun: Les CNN utilisent souvent le max-pooling, ce qui peut entraîner la perte d'informations spatiales précises. Les CapsNets évitent ce problème en utilisant le routage dynamique, qui préserve les hiérarchies spatiales.
  • Équivariance: Les CapsNets sont conçus pour être équivariants aux changements de point de vue, ce qui signifie qu'ils peuvent reconnaître des objets même lorsque leur orientation change. Les CNN ne sont pas intrinsèquement équivariants et nécessitent des techniques telles que l'augmentation des données pour obtenir des résultats similaires.

Avantages des réseaux de capsules

Les CapsNets offrent plusieurs avantages par rapport aux CNN traditionnels :

  • Meilleure gestion des hiérarchies spatiales: En représentant les caractéristiques sous forme de vecteurs, CapsNets peut mieux comprendre les relations spatiales entre les parties d'un objet.
  • Robustesse accrue aux transformations affines: Les CapsNets peuvent reconnaître des objets soumis à diverses transformations (par exemple, rotation, mise à l'échelle) sans qu'il soit nécessaire d'augmenter considérablement les données.
  • Meilleure généralisation avec moins de données: Grâce à leur capacité à capturer des informations détaillées sur les caractéristiques, les CapsNets peuvent souvent obtenir de bonnes performances avec moins d'exemples d'apprentissage que les CNN.

Applications dans le monde réel

Les réseaux de capsules se sont révélés prometteurs dans diverses applications, démontrant leur potentiel pour faire progresser le domaine de l'apprentissage profond (DL) :

  • Imagerie médicale: Dans l'analyse d'images médicales, les CapsNets peuvent améliorer la précision du diagnostic des maladies en comprenant mieux les relations spatiales entre les différentes structures anatomiques. Par exemple, ils peuvent être utilisés pour détecter et classer les tumeurs avec plus de précision en analysant leur forme, leur taille et leur position relative au sein d'un organe.
  • Véhicules autonomes: Les CapsNets peuvent améliorer les systèmes de perception des véhicules autonomes en améliorant la détection et la reconnaissance des objets, en particulier dans des conditions difficiles telles que des points de vue variables et des occlusions. Cela peut conduire à une navigation plus sûre et plus fiable.
  • Reconnaissance faciale: Dans les systèmes de reconnaissance faciale, les CapsNets peuvent fournir des performances plus robustes en capturant avec précision les relations spatiales entre les caractéristiques du visage, même en cas de changement de pose et d'expression.

Défis et orientations futures

Malgré leurs avantages, les CapsNets sont également confrontés à des défis, tels qu'une plus grande complexité de calcul par rapport aux CNN et la nécessité de poursuivre les recherches pour optimiser leur architecture et leurs procédures d'entraînement. Les recherches en cours se concentrent sur l'amélioration de l'efficacité du routage dynamique, l'exploration de nouveaux types de capsules et l'application des CapsNets à un plus large éventail de tâches au-delà de la reconnaissance d'images.

Alors que le domaine de l'intelligence artificielle (IA) continue d'évoluer, les réseaux de capsules représentent un domaine de développement passionnant, offrant de nouvelles possibilités pour créer des modèles de réseaux neuronaux plus robustes et plus polyvalents. Leur capacité à capturer des informations spatiales détaillées et à gérer les transformations en fait un outil précieux pour faire progresser la vision par ordinateur et d'autres applications d'IA. Pour ceux qui souhaitent explorer des modèles d'IA de pointe, les modèles Ultralytics YOLO proposent des architectures de détection d'objets à la pointe de la technologie qui intègrent certaines des dernières avancées dans le domaine. De plus, le HUB Ultralytics fournit une plateforme pour la formation et le déploiement de ces modèles, facilitant ainsi le développement et l'application de solutions d'IA avancées.

Tout lire