Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Capsule Networks (CapsNet)

Entdecken Sie Capsule Networks (CapsNets) und erfahren Sie, wie sie die Einschränkungen von CNNs lösen. Erfahren Sie mehr über dynamisches Routing, räumliche Hierarchien und den Vergleich von CapsNets mit YOLO26.

Kapselnetzwerke, oft als CapsNets abgekürzt, stellen eine fortschrittliche Architektur im Bereich des Deep Learning dar, die entwickelt wurde, um bestimmte Einschränkungen traditioneller neuronaler Netzwerke zu überwinden. CapsNets wurden von Geoffrey Hinton und seinem Team eingeführt und versuchen, die biologische neuronale Organisation des menschlichen Gehirns genauer nachzuahmen als Standardmodelle . Im Gegensatz zu einem typischen Convolutional Neural Network (CNN), das sich durch eine hervorragende Erkennung von Merkmalen auszeichnet, jedoch aufgrund von Downsampling häufig räumliche Beziehungen verliert, organisiert ein Capsule Network Neuronen in Gruppen, die als „Kapseln” bezeichnet werden. Diese Kapseln kodieren nicht nur die Wahrscheinlichkeit der Anwesenheit eines Objekts, sondern auch dessen spezifische Eigenschaften wie Ausrichtung, Größe und Textur, wodurch die hierarchischen räumlichen Beziehungen innerhalb der visuellen Daten effektiv erhalten bleiben.

Die Grenzen traditioneller CNNs

Um die Innovation von CapsNets zu verstehen, ist es hilfreich, sich anzuschauen, wie Standardmodelle der Computervision funktionieren. Ein herkömmliches CNN verwendet Schichten der Merkmalsextraktion, gefolgt von Pooling-Schichten – insbesondere Max-Pooling–, um die Rechenlast zu reduzieren und Translationsinvarianz zu erreichen. Das bedeutet, dass ein CNN eine „Katze” identifizieren kann , unabhängig davon, wo sie sich im Bild befindet.

Bei diesem Verfahren gehen jedoch häufig präzise Standortdaten verloren, was zum „Picasso-Problem“ führt: Ein CNN classify Gesicht auch dann korrekt classify , wenn sich der Mund auf der Stirn befindet, einfach weil alle erforderlichen Merkmale vorhanden sind. CapsNets lösen dieses Problem, indem sie Pooling-Schichten entfernen und durch einen Prozess ersetzen, der die räumlichen Hierarchien von Objekten berücksichtigt.

Wie Kapselnetzwerke funktionieren

Der Kernbaustein dieser Architektur ist die Kapsel, eine verschachtelte Gruppe von Neuronen, die einen Vektor anstelle eines Skalarwerts ausgibt. In der Vektormathematik hat ein Vektor sowohl eine Größe als auch eine Richtung. In einem CapsNet:

  • Magnitude (Länge): Stellt die Wahrscheinlichkeit dar, dass eine bestimmte Entität in der aktuellen Eingabe vorhanden ist.
  • Richtung (Orientierung): Kodiert die Instanziierungsparameter, wie z. B. die Posenabschätzung, Skalierung und Drehung des Objekts.

Kapseln in unteren Schichten (die einfache Formen wie Kanten erkennen) sagen die Ausgabe von Kapseln in höheren Schichten voraus (die komplexe Objekte wie Augen oder Reifen erkennen). Diese Kommunikation wird durch einen Algorithmus namens „dynamisches Routing” oder „Routing durch Vereinbarung” gesteuert. Wenn die Vorhersage einer Kapsel auf einer niedrigeren Ebene mit dem Zustand der Kapsel auf einer höheren Ebene übereinstimmt , wird die Verbindung zwischen ihnen gestärkt. Dadurch kann das Netzwerk Objekte aus verschiedenen 3D-Blickwinkeln erkennen, ohne dass die massive Datenvergrößerung erforderlich ist, die normalerweise benötigt wird, um CNNs Rotation und Skalierung beizubringen.

Wichtige Unterschiede: CapsNets vs. CNNs

Obwohl beide Architekturen für die Computervision (CV) von grundlegender Bedeutung sind, unterscheiden sie sich in der Art und Weise, wie sie visuelle Daten verarbeiten und darstellen:

  • Skalar vs. Vektor: CNN-Neuronen verwenden skalare Ausgänge, um das Vorhandensein von Merkmalen anzuzeigen. CapsNets verwenden Vektoren, um das Vorhandensein (Länge) und die Positionsparameter (Ausrichtung) zu kodieren.
  • Routing vs. Pooling: CNNs verwenden Pooling, um Daten herunterzusampeln, wodurch häufig Standortdetails verloren gehen. CapsNets verwenden dynamisches Routing, um räumliche Daten zu erhalten, wodurch sie für Aufgaben, die eine präzise Objektverfolgung erfordern, sehr effektiv sind.
  • Dateneffizienz: Da Kapseln implizit 3D-Blickpunkte und affine Transformationen verstehen, können sie oft mit weniger Trainingsdaten verallgemeinern als CNNs, die möglicherweise umfangreiche Beispiele benötigen, um jede mögliche Drehung eines Objekts zu lernen.

Anwendungsfälle in der Praxis

CapsNets sind zwar oft rechenintensiver als optimierte Modelle wie YOLO26, bieten jedoch in speziellen Bereichen deutliche Vorteile:

  1. Medizinische Bildanalyse: Im Gesundheitswesen sind die genaue Ausrichtung und Form einer Anomalie von entscheidender Bedeutung. Forscher haben CapsNets für die Segmentierung von Hirntumoren eingesetzt, wobei das Modell einen Tumor anhand subtiler räumlicher Hierarchien, die von Standard-CNNs möglicherweise geglättet werden, vom umgebenden Gewebe unterscheiden muss. Sie können verwandte Forschungsarbeiten zu Kapselnetzwerken in der medizinischen Bildgebung erkunden.
  2. Erkennung überlappender Ziffern: CapsNets erzielte auf dem MNIST insbesondere in Szenarien, in denen Ziffern überlappen, Ergebnisse auf dem neuesten Stand der Technik. Da das Netzwerk die „Pose” jeder Ziffer verfolgt, kann es zwei überlappende Zahlen (z. B. eine „3” auf einer „5”) als unterschiedliche Objekte entwirren, anstatt sie zu einer einzigen unübersichtlichen Merkmalskarte zusammenzufassen .

Praktischer Kontext und Umsetzung

Capsule Networks sind in erster Linie eine Klassifizierungsarchitektur. Obwohl sie theoretisch robust sind, werden in modernen Industrieanwendungen oftmals Hochgeschwindigkeits-CNNs oder Transformers für Echtzeit-Leistung bevorzugt. Es ist jedoch nützlich, die für CapsNets verwendeten Klassifizierungs-Benchmarks wie MNIST zu verstehen.

Das folgende Beispiel zeigt, wie man ein modernes YOLO modell auf dem MNIST unter Verwendung der ultralytics Paket. Dies entspricht der primären Benchmark-Aufgabe, die zur Validierung von Capsule Networks verwendet wird.

from ultralytics import YOLO

# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")

# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)

# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")

Die Zukunft von Kapseln und Vision AI

Die Prinzipien hinter Capsule Networks beeinflussen weiterhin die Forschung im Bereich KI-Sicherheit und Interpretierbarkeit. Durch die explizite Modellierung von Teil-Ganzes-Beziehungen bieten Kapseln eine „Glaskasten”-Alternative zum „Black-Box”-Charakter tiefer neuronaler Netze, wodurch Entscheidungen besser erklärbar werden. Zukünftige Entwicklungen zielen darauf ab, die räumliche Robustheit von Kapseln mit der Inferenzgeschwindigkeit von Architekturen wie YOLO11 oder dem neueren YOLO26 zu kombinieren, um die Leistung bei der 3D-Objekterkennung und Robotik zu verbessern. Forscher untersuchen auch Matrix-Kapseln mit EM-Routing, um die Rechenkosten des Übereinstimmungsalgorithmus weiter zu reduzieren.

Für Entwickler, die Datensätze verwalten und Modelle effizient trainieren möchten, bietet Ultralytics eine einheitliche Umgebung zum Kommentieren von Daten, zum Trainieren in der Cloud und zum Bereitstellen von Modellen, die die Geschwindigkeit von CNNs mit der für komplexe Bildverarbeitungsaufgaben erforderlichen Genauigkeit in Einklang bringen .

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten