Glossar

Backbone

Entdecke die Rolle von Backbones beim Deep Learning, erforsche Top-Architekturen wie ResNet und ViT und lerne ihre realen KI-Anwendungen kennen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Beim Deep Learning, insbesondere im Bereich Computer Vision (CV), bezieht sich der Begriff "Backbone" auf den ersten, grundlegenden Satz von Schichten in einem neuronalen Netzwerkmodell (NN). Sein Hauptzweck ist die Merkmalsextraktion: die Verarbeitung roher Eingabedaten, z. B. eines Bildes, und ihre Umwandlung in eine kompakte, informative Darstellung. Diese Darstellung, die oft als Feature-Maps bezeichnet wird, erfasst wesentliche Muster, Texturen und Formen der Eingabedaten. Stell dir das Backbone als die Augen der KI vor, die die erste Interpretation vornehmen, bevor das Denken auf höherer Ebene einsetzt. Diese grundlegende Verarbeitung ist entscheidend für die Fähigkeit des Modells, visuelle Informationen für nachfolgende Aufgaben zu verstehen und zu interpretieren.

Kernfunktionalität

Ein typisches Backbone besteht aus einer Abfolge von Schichten, zu denen in der Regel Faltungsschichten, Pooling-Schichten (die die räumlichen Dimensionen reduzieren) und Aktivierungsfunktionen (die Nichtlinearität einführen) gehören. Während die Eingabedaten diese Schichten durchlaufen, lernt das Netz nach und nach hierarchische Merkmale. Die ersten Schichten können einfache Elemente wie Kanten und Ecken erkennen, während die tieferen Schichten diese einfacheren Merkmale kombinieren, um komplexere Strukturen, Teile von Objekten und schließlich ganze Objekte zu erkennen. Die vom Backbone erzeugte Ausgabe ist eine Reihe von High-Level-Merkmalen, die die wichtigsten Informationen der ursprünglichen Eingabe zusammenfassen. Durch diesen Prozess wird die Dimensionalität der Daten effektiv reduziert, während die semantische Bedeutung erhalten bleibt, was die Grundlage für viele erfolgreiche Deep Learning-Modelle bildet.

Rolle in Computer Vision Modellen

In ausgefeilten Computer-Vision-Modellen, die für Aufgaben wie Objekterkennung, Instanzsegmentierung oder Posenschätzung entwickelt wurden, liefert das Backbone die wesentliche Merkmalsdarstellung. Nachfolgende Komponenten, die oft als "Hals" (der die Merkmale verfeinert und zusammenfasst) und "Kopf" (der die endgültige Vorhersage der Aufgabe durchführt) bezeichnet werden, bauen auf den vom Backbone extrahierten Merkmalen auf. Der Erkennungskopf verwendet diese verfeinerten Merkmale zum Beispiel, um Bounding Boxes um erkannte Objekte und die entsprechenden Klassen vorherzusagen. Das Backbone unterscheidet sich von diesen späteren Phasen; sein einziger Fokus liegt auf der Erzeugung einer leistungsstarken, oft universell einsetzbaren Merkmalsdarstellung aus den Eingabedaten. Eine gängige Praxis ist es, Backbones zu verwenden, die auf großen Datensätzen wie ImageNet vortrainiert wurden, und sie dann mit Hilfe von Transfer-Lernen für bestimmte nachgelagerte Aufgaben zu optimieren, was den Trainingsprozess erheblich beschleunigt.

Gemeinsame Backbone-Architekturen

Verschiedene etablierte neuronale Netzarchitekturen werden häufig als Backbones eingesetzt, da sie sich bei der Merkmalsextraktion als sehr effektiv erwiesen haben:

Die Wahl des Backbones hat einen erheblichen Einfluss auf die Leistungsmerkmale eines Modells, wie Geschwindigkeit, Rechenkosten(FLOPs) und Genauigkeit, wie verschiedene Modellvergleiche zeigen. Frameworks wie PyTorch und TensorFlowsowie Bibliotheken wie OpenCV sind unverzichtbare Werkzeuge für die Implementierung und Nutzung dieser Backbones. Plattformen wie Ultralytics HUB vereinfachen den Prozess der Nutzung von Modellen mit verschiedenen Backbones weiter.

Unterscheidung zwischen Backbone und verwandten Begriffen

Es ist wichtig, das Backbone nicht mit dem gesamten neuronalen Netz oder anderen spezifischen Komponenten zu verwechseln:

  • Das gesamte neuronale Netz: Das Backbone ist nur ein Teil, in der Regel der erste Teil der Merkmalsextraktion, einer größeren Netzwerkarchitektur. Das gesamte Netzwerk umfasst auch den Hals und den Kopf/die Köpfe, die für die aufgabenspezifischen Vorhersagen verantwortlich sind.
  • Erkennungskopf: Dies ist der letzte Teil eines Objekterkennungsmodells, der Merkmale (die oft sowohl vom Backbone als auch vom Neck verarbeitet werden) aufnimmt und Bounding-Box-Koordinaten und Klassenwahrscheinlichkeiten ausgibt. Er ist aufgabenspezifisch, anders als das allgemeinere Backbone.
  • Merkmalsextraktor: Während das Backbone ein Feature Extractor ist, kann sich der Begriff "Feature Extractor" auch auf jeden Teil eines Netzwerks beziehen, der Merkmale extrahiert, oder sogar auf eigenständige Feature Extraction Algorithmen außerhalb des Deep Learning (wie SIFT oder HOG). Im Zusammenhang mit modernen Deep Learning-Architekturen wie Ultralytics YOLObezieht sich der Begriff "Backbone" speziell auf die anfängliche Faltungsbasis.

Anwendungen in der realen Welt

Backbones sind grundlegende Komponenten in unzähligen KI-Anwendungen:

  1. Autonomes Fahren: Systeme in selbstfahrenden Autos verlassen sich stark auf robuste Backbones (z. B. ResNet- oder EfficientNet-Varianten), um Daten von Kameras und LiDAR-Sensoren zu verarbeiten. Die extrahierten Merkmale ermöglichen die Erkennung und Klassifizierung von Fahrzeugen, Fußgängern, Ampeln und Fahrspuren, was für eine sichere Navigation und Entscheidungsfindung entscheidend ist, wie die Systeme von Unternehmen wie Waymo zeigen.
  2. Medizinische Bildanalyse: Bei KI-Lösungen im Gesundheitswesen werden Backbones eingesetzt, um medizinische Scans wie Röntgenaufnahmen, CTs oder MRTs zu analysieren. Ein Backbone wie DenseNet kann z. B. Merkmale aus einer Röntgenaufnahme des Brustkorbs extrahieren, um Anzeichen einer Lungenentzündung zu erkennen, oder aus einem CT-Scan, um mögliche Tumore zu identifizieren(relevante Forschung in Radiology: AI). Dies hilft Radiologen bei der Diagnose und Behandlungsplanung. Ultralytics Modelle wie YOLO11 können für Aufgaben wie die Tumorerkennung angepasst werden, indem sie leistungsstarke Backbones nutzen.
Alles lesen