Glossar

Backbone

Entdecke die Rolle von Backbones beim Deep Learning, erforsche Top-Architekturen wie ResNet und ViT und lerne ihre realen KI-Anwendungen kennen.

Beim Deep Learning, insbesondere im Bereich Computer Vision (CV), bezieht sich der Begriff "Backbone" auf den ersten, grundlegenden Satz von Schichten in einem neuronalen Netzwerkmodell (NN). Sein Hauptzweck ist die Merkmalsextraktion: die Verarbeitung roher Eingabedaten, z. B. eines Bildes, und ihre Umwandlung in eine kompakte, informative Darstellung. Diese Darstellung, die oft als Feature-Maps bezeichnet wird, erfasst wesentliche Muster, Texturen und Formen der Eingabedaten. Stell dir das Backbone als die Augen der KI vor, die die erste Interpretation vornehmen, bevor das Denken auf höherer Ebene einsetzt. Diese grundlegende Verarbeitung ist entscheidend für die Fähigkeit des Modells, visuelle Informationen für nachfolgende Aufgaben zu verstehen und zu interpretieren.

Kernfunktionalität

Ein typisches Backbone besteht aus einer Abfolge von Schichten, zu denen in der Regel Faltungsschichten, Pooling-Schichten (die die räumlichen Dimensionen reduzieren) und Aktivierungsfunktionen (die Nichtlinearität einführen) gehören. Während die Eingabedaten diese Schichten durchlaufen, lernt das Netz nach und nach hierarchische Merkmale. Die ersten Schichten können einfache Elemente wie Kanten und Ecken erkennen, während die tieferen Schichten diese einfacheren Merkmale kombinieren, um komplexere Strukturen, Teile von Objekten und schließlich ganze Objekte zu erkennen. Die vom Backbone erzeugte Ausgabe ist eine Reihe von High-Level-Merkmalen, die die wichtigsten Informationen der ursprünglichen Eingabe zusammenfassen. Durch diesen Prozess wird die Dimensionalität der Daten effektiv reduziert, während die semantische Bedeutung erhalten bleibt, was die Grundlage für viele erfolgreiche Deep Learning-Modelle bildet.

Rolle in Computer Vision Modellen

In ausgefeilten Computer-Vision-Modellen, die für Aufgaben wie Objekterkennung, Instanzsegmentierung oder Posenschätzung entwickelt wurden, liefert das Backbone die wesentliche Merkmalsdarstellung. Nachfolgende Komponenten, die oft als "Hals" (der die Merkmale verfeinert und zusammenfasst) und "Kopf" (der die endgültige Vorhersage der Aufgabe durchführt) bezeichnet werden, bauen auf den vom Backbone extrahierten Merkmalen auf. Der Erkennungskopf verwendet diese verfeinerten Merkmale zum Beispiel, um Bounding Boxes um erkannte Objekte und die entsprechenden Klassen vorherzusagen. Das Backbone unterscheidet sich von diesen späteren Phasen; sein einziger Fokus liegt auf der Erzeugung einer leistungsstarken, oft universell einsetzbaren Merkmalsdarstellung aus den Eingabedaten. Eine gängige Praxis ist es, Backbones zu verwenden, die auf großen Datensätzen wie ImageNet vortrainiert wurden, und sie dann mit Hilfe von Transfer-Lernen für bestimmte nachgelagerte Aufgaben zu optimieren, was den Trainingsprozess erheblich beschleunigt.

Gemeinsame Backbone-Architekturen

Verschiedene etablierte neuronale Netzarchitekturen werden häufig als Backbones eingesetzt, da sie sich bei der Merkmalsextraktion als sehr effektiv erwiesen haben:

ResNet (Residual Networks): Einführung von Restverbindungen, um das Training von viel tieferen Netzen zu ermöglichen und das Problem des verschwindenden Gradienten zu lösen.(Paper: arXiv:1512.03385).
VGG: Bekannt für seine einfache und einheitliche Architektur mit kleinen (3x3) Faltungsfiltern.(Paper: arXiv:1409.1556).
MobileNet: Entwickelt für mobile und eingebettete Bildverarbeitungsanwendungen mit dem Schwerpunkt auf Effizienz und geringer Latenz.(Paper: arXiv:1704.04861).
EfficientNet: Verwendet eine zusammengesetzte Skalierungsmethode, um Tiefe, Breite und Auflösung des Netzes gleichmäßig zu skalieren und so eine optimale Effizienz zu erreichen.(Paper: arXiv:1905.11946).
Vision Transformers (ViT): Wendet die Transformer-Architektur, die ursprünglich im NLP erfolgreich war, direkt auf Sequenzen von Bildfeldern an.(Paper: arXiv:2010.11929).
CSPDarknet: Eine Variante des Darknets, die Cross Stage Partial-Netzwerke einbezieht und effektiv in Modellen wie Ultralytics YOLOv5 und späteren Versionen, die einen Ausgleich zwischen Geschwindigkeit und Genauigkeit schaffen.

Die Wahl des Backbones hat einen erheblichen Einfluss auf die Leistungsmerkmale eines Modells, wie Geschwindigkeit, Rechenkosten(FLOPs) und Genauigkeit, wie verschiedene Modellvergleiche zeigen. Frameworks wie PyTorch und TensorFlowsowie Bibliotheken wie OpenCV sind unverzichtbare Werkzeuge für die Implementierung und Nutzung dieser Backbones. Plattformen wie Ultralytics HUB vereinfachen den Prozess der Nutzung von Modellen mit verschiedenen Backbones weiter.

Unterscheidung zwischen Backbone und verwandten Begriffen

Es ist wichtig, das Backbone nicht mit dem gesamten neuronalen Netz oder anderen spezifischen Komponenten zu verwechseln:

Das gesamte neuronale Netz: Das Backbone ist nur ein Teil, in der Regel der erste Teil der Merkmalsextraktion, einer größeren Netzwerkarchitektur. Das gesamte Netzwerk umfasst auch den Hals und den Kopf/die Köpfe, die für die aufgabenspezifischen Vorhersagen verantwortlich sind.
Erkennungskopf: Dies ist der letzte Teil eines Objekterkennungsmodells, der Merkmale (die oft sowohl vom Backbone als auch vom Neck verarbeitet werden) aufnimmt und Bounding-Box-Koordinaten und Klassenwahrscheinlichkeiten ausgibt. Er ist aufgabenspezifisch, anders als das allgemeinere Backbone.
Merkmalsextraktor: Während das Backbone ein Feature Extractor ist, kann sich der Begriff "Feature Extractor" auch auf jeden Teil eines Netzwerks beziehen, der Merkmale extrahiert, oder sogar auf eigenständige Feature Extraction Algorithmen außerhalb des Deep Learning (wie SIFT oder HOG). Im Zusammenhang mit modernen Deep Learning-Architekturen wie Ultralytics YOLObezieht sich der Begriff "Backbone" speziell auf die anfängliche Faltungsbasis.

Anwendungen in der realen Welt

Backbones sind grundlegende Komponenten in unzähligen KI-Anwendungen:

Autonomes Fahren: Systeme in selbstfahrenden Autos verlassen sich stark auf robuste Backbones (z. B. ResNet- oder EfficientNet-Varianten), um Daten von Kameras und LiDAR-Sensoren zu verarbeiten. Die extrahierten Merkmale ermöglichen die Erkennung und Klassifizierung von Fahrzeugen, Fußgängern, Ampeln und Fahrspuren, was für eine sichere Navigation und Entscheidungsfindung entscheidend ist, wie die Systeme von Unternehmen wie Waymo zeigen.
Medizinische Bildanalyse: Bei KI-Lösungen im Gesundheitswesen werden Backbones eingesetzt, um medizinische Scans wie Röntgenaufnahmen, CTs oder MRTs zu analysieren. Ein Backbone wie DenseNet kann z. B. Merkmale aus einer Röntgenaufnahme des Brustkorbs extrahieren, um Anzeichen einer Lungenentzündung zu erkennen, oder aus einem CT-Scan, um mögliche Tumore zu identifizieren(relevante Forschung in Radiology: AI). Dies hilft Radiologen bei der Diagnose und Behandlungsplanung. Ultralytics Modelle wie YOLO11 können für Aufgaben wie die Tumorerkennung angepasst werden, indem sie leistungsstarke Backbones nutzen.

Backbone

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Flexible Unternehmenslizenzierungslösung für deine Innovation

Trainiere KI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Trainiere YOLO Modelle einfach mit Ultralytics HUB

Kernfunktionalität

Rolle in Computer Vision Modellen

Gemeinsame Backbone-Architekturen

Unterscheidung zwischen Backbone und verwandten Begriffen

Anwendungen in der realen Welt

Mehr Blogs lesen

Werde Mitglied der Ultralytics Community

Backbone

Trainiere YOLO Modelle einfachmit Ultralytics HUB

Flexible Unternehmenslizenzierungslösung für deine Innovation

Trainiere KI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Trainiere YOLO Modelle einfach mit Ultralytics HUB

Kernfunktionalität

Rolle in Computer Vision Modellen

Gemeinsame Backbone-Architekturen

Unterscheidung zwischen Backbone und verwandten Begriffen

Anwendungen in der realen Welt

Mehr Blogs lesen

Werde Mitglied der Ultralytics Community

Trainiere YOLO Modelle einfach
mit Ultralytics HUB