Entdecken Sie Capsule Networks (CapsNets) und erfahren Sie, wie sie die Einschränkungen von CNNs lösen. Erfahren Sie mehr über dynamisches Routing, räumliche Hierarchien und den Vergleich von CapsNets mit YOLO26.
Kapselnetzwerke, oft als CapsNets abgekürzt, stellen eine fortschrittliche Architektur im Bereich des Deep Learning dar, die entwickelt wurde, um bestimmte Einschränkungen traditioneller neuronaler Netzwerke zu überwinden. CapsNets wurden von Geoffrey Hinton und seinem Team eingeführt und versuchen, die biologische neuronale Organisation des menschlichen Gehirns genauer nachzuahmen als Standardmodelle . Im Gegensatz zu einem typischen Convolutional Neural Network (CNN), das sich durch eine hervorragende Erkennung von Merkmalen auszeichnet, jedoch aufgrund von Downsampling häufig räumliche Beziehungen verliert, organisiert ein Capsule Network Neuronen in Gruppen, die als „Kapseln” bezeichnet werden. Diese Kapseln kodieren nicht nur die Wahrscheinlichkeit der Anwesenheit eines Objekts, sondern auch dessen spezifische Eigenschaften wie Ausrichtung, Größe und Textur, wodurch die hierarchischen räumlichen Beziehungen innerhalb der visuellen Daten effektiv erhalten bleiben.
Um die Innovation von CapsNets zu verstehen, ist es hilfreich, sich anzuschauen, wie Standardmodelle der Computervision funktionieren. Ein herkömmliches CNN verwendet Schichten der Merkmalsextraktion, gefolgt von Pooling-Schichten – insbesondere Max-Pooling–, um die Rechenlast zu reduzieren und Translationsinvarianz zu erreichen. Das bedeutet, dass ein CNN eine „Katze” identifizieren kann , unabhängig davon, wo sie sich im Bild befindet.
Bei diesem Verfahren gehen jedoch häufig präzise Standortdaten verloren, was zum „Picasso-Problem“ führt: Ein CNN classify Gesicht auch dann korrekt classify , wenn sich der Mund auf der Stirn befindet, einfach weil alle erforderlichen Merkmale vorhanden sind. CapsNets lösen dieses Problem, indem sie Pooling-Schichten entfernen und durch einen Prozess ersetzen, der die räumlichen Hierarchien von Objekten berücksichtigt.
Der Kernbaustein dieser Architektur ist die Kapsel, eine verschachtelte Gruppe von Neuronen, die einen Vektor anstelle eines Skalarwerts ausgibt. In der Vektormathematik hat ein Vektor sowohl eine Größe als auch eine Richtung. In einem CapsNet:
Kapseln in unteren Schichten (die einfache Formen wie Kanten erkennen) sagen die Ausgabe von Kapseln in höheren Schichten voraus (die komplexe Objekte wie Augen oder Reifen erkennen). Diese Kommunikation wird durch einen Algorithmus namens „dynamisches Routing” oder „Routing durch Vereinbarung” gesteuert. Wenn die Vorhersage einer Kapsel auf einer niedrigeren Ebene mit dem Zustand der Kapsel auf einer höheren Ebene übereinstimmt , wird die Verbindung zwischen ihnen gestärkt. Dadurch kann das Netzwerk Objekte aus verschiedenen 3D-Blickwinkeln erkennen, ohne dass die massive Datenvergrößerung erforderlich ist, die normalerweise benötigt wird, um CNNs Rotation und Skalierung beizubringen.
Obwohl beide Architekturen für die Computervision (CV) von grundlegender Bedeutung sind, unterscheiden sie sich in der Art und Weise, wie sie visuelle Daten verarbeiten und darstellen:
CapsNets sind zwar oft rechenintensiver als optimierte Modelle wie YOLO26, bieten jedoch in speziellen Bereichen deutliche Vorteile:
Capsule Networks sind in erster Linie eine Klassifizierungsarchitektur. Obwohl sie theoretisch robust sind, werden in modernen Industrieanwendungen oftmals Hochgeschwindigkeits-CNNs oder Transformers für Echtzeit-Leistung bevorzugt. Es ist jedoch nützlich, die für CapsNets verwendeten Klassifizierungs-Benchmarks wie MNIST zu verstehen.
Das folgende Beispiel zeigt, wie man ein modernes
YOLO modell auf dem MNIST unter Verwendung der
ultralytics Paket. Dies entspricht der primären Benchmark-Aufgabe, die zur Validierung von Capsule Networks verwendet wird.
from ultralytics import YOLO
# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")
# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)
# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")
Die Prinzipien hinter Capsule Networks beeinflussen weiterhin die Forschung im Bereich KI-Sicherheit und Interpretierbarkeit. Durch die explizite Modellierung von Teil-Ganzes-Beziehungen bieten Kapseln eine „Glaskasten”-Alternative zum „Black-Box”-Charakter tiefer neuronaler Netze, wodurch Entscheidungen besser erklärbar werden. Zukünftige Entwicklungen zielen darauf ab, die räumliche Robustheit von Kapseln mit der Inferenzgeschwindigkeit von Architekturen wie YOLO11 oder dem neueren YOLO26 zu kombinieren, um die Leistung bei der 3D-Objekterkennung und Robotik zu verbessern. Forscher untersuchen auch Matrix-Kapseln mit EM-Routing, um die Rechenkosten des Übereinstimmungsalgorithmus weiter zu reduzieren.
Für Entwickler, die Datensätze verwalten und Modelle effizient trainieren möchten, bietet Ultralytics eine einheitliche Umgebung zum Kommentieren von Daten, zum Trainieren in der Cloud und zum Bereitstellen von Modellen, die die Geschwindigkeit von CNNs mit der für komplexe Bildverarbeitungsaufgaben erforderlichen Genauigkeit in Einklang bringen .