Glossar

Residuale Netzwerke (ResNet)

Entdecke, wie ResNets das Deep Learning revolutionieren, indem sie verschwindende Gradienten lösen und ultratiefe Netze für Bildanalyse, NLP und mehr ermöglichen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Residual Networks, allgemein bekannt als ResNet, sind eine bahnbrechende Architektur für Faltungsneuronale Netze (CNN), die von Kaiming He und Kollegen bei Microsoft Research entwickelt wurde. ResNet wurde 2015 in der Arbeit"Deep Residual Learning for Image Recognition" vorgestellt und befasst sich mit einer der größten Herausforderungen beim Deep Learning (DL): dem Degradationsproblem. Dieses Problem tritt auf, wenn das Hinzufügen weiterer Schichten zu einem sehr tiefen Netzwerk zu höheren Trainingsfehlern führt, entgegen der Erwartung, dass tiefere Modelle besser funktionieren sollten. Die Innovation von ResNet ermöglichte das erfolgreiche Training von Netzen, die wesentlich tiefer waren als bisher möglich, und brachte den Stand der Technik bei verschiedenen Aufgaben des Computer Vision (CV) deutlich voran.

Wie ResNets funktionieren: Verbindungen überspringen

Die Kernidee von ResNet ist die Einführung von "Skip Connections" oder "Shortcut Connections". In herkömmlichen tiefen Netzen geht jede Schicht nacheinander in die nächste ein. ResNet ändert dies, indem es die Eingabe eines Blocks von Schichten zur Ausgabe dieses Blocks hinzufügt. Dadurch entsteht ein "Restblock", in dem die Schichten eine Restabbildung (die Differenz zwischen der Eingabe und der gewünschten Ausgabe) lernen, anstatt zu versuchen, die gesamte zugrunde liegende Abbildung direkt zu lernen. Wenn die optimale Funktion näher an einer Identitätszuordnung liegt (bei der die Ausgabe mit der Eingabe übereinstimmen sollte), ist es für das Netzwerk einfacher zu lernen, die Residualfunktion auf Null zu setzen (indem die Gewichte der gestapelten Schichten gegen Null getrieben werden), als die Identitätszuordnung selbst durch nichtlineare Schichten zu lernen.

Diese Skip-Verbindungen erleichtern den Gradientenfluss während der Backpropagation und entschärfen so das Problem des verschwindenden Gradienten, das oft bei sehr tiefen Netzen auftritt. Dies ermöglicht den Aufbau und das effektive Training von Netzen mit Hunderten oder sogar Tausenden von Schichten, die eine bemerkenswerte Verbesserung der Genauigkeit bei anspruchsvollen Benchmark-Datensätzen wie ImageNet erzielen.

Schlüsselkonzepte

  • Residual Block: Die grundlegende Baueinheit eines ResNet, die aus einigen Faltungsschichten und einer Sprungverbindung besteht, die die Eingabe des Blocks zu seiner Ausgabe addiert.
  • Verbindung überspringen (Shortcut): Eine direkte Verbindung, die eine oder mehrere Ebenen umgeht und das Lernen von Gradientenfluss und Identitätszuordnung erleichtert.
  • Identitäts-Mapping: Wenn eine Schicht oder ein Block seinen Input einfach unverändert weiterleitet. Skip-Verbindungen erleichtern es den verbleibenden Blöcken, bei Bedarf Identitätszuordnungen anzunähern.
  • Degradationsproblem: Das Phänomen, dass tiefere Netze schlechter abschneiden (höherer Trainings- und Testfehler) als flachere, wird durch das ResNet-Residuallernen angegangen.

Relevanz in der Computer Vision

ResNet-Architekturen wurden schnell zum Standard für viele Bildverarbeitungsaufgaben, die über die Bildklassifizierung hinausgehen, z. B:

  • Objekterkennung: Viele Erkennungsmodelle, wie Faster R-CNN und einige Varianten, die in Systemen verwendet werden, die mit Ultralytics YOLO Modellen (z.B., RT-DETR), nutzen ResNet-Backbones für die Merkmalsextraktion(Objektdetektions-Glossar).
  • Bildsegmentierung: Architekturen wie Mask R-CNN verwenden oft ResNet, um die für die Klassifizierung auf Pixelebene notwendigen räumlichen Merkmale zu extrahieren(Glossar Bildsegmentierung).

Ihre Fähigkeit, aussagekräftige Merkmale aus Bildern zu extrahieren, machte sie zu einer äußerst vielseitigen und weit verbreiteten Architektur.

Anwendungen in der realen Welt

  1. Medizinische Bildanalyse: ResNets werden häufig bei der Analyse medizinischer Scans (Röntgenbilder, CT, MRT) eingesetzt, um Anomalien wie Tumore oder diabetische Retinopathie zu erkennen. Die Tiefe, die ResNets ermöglichen, erlaubt es dem Modell, komplizierte Muster zu lernen, die auf Krankheiten hinweisen und Radiologen bei der Diagnose helfen. Du kannst verwandte Anwendungen in der KI in der Radiologie erkunden und mehr über den Bereich der medizinischen Bildanalyse erfahren. Initiativen wie das Bridge2AI-Programm der NIH nutzen oft solche fortschrittlichen Modelle.
  2. Autonomes Fahren: Wahrnehmungssysteme in selbstfahrenden Autos verlassen sich oft auf ResNet-basierte Architekturen für die Objekterkennung in Echtzeit und die Erkennung von Fußgängern, Fahrzeugen, Ampeln und Straßenschildern. Die Robustheit und Genauigkeit von tiefen ResNet-Modellen sind entscheidend für die Sicherheit in komplexen Fahrszenarien(AI in Automotive solutions). Unternehmen wie Waymo zeigen, wie wichtig robuste Wahrnehmungssysteme sind.

Vergleich mit anderen Architekturen

  • VGGNet: Während VGGNet den Vorteil der Tiefe mit einfachen 3x3-Faltungen demonstrierte, hatte es bei sehr tiefen Netzen aufgrund verschwindender Gradienten Probleme mit der Konvergenz. Mit ResNet wurde diese Einschränkung direkt angegangen(Vision AI History Blog, VGG Paper).
  • DenseNet: DenseNets verbinden jede Schicht mit jeder anderen Schicht in einer Vorwärtsverbindung und fördern so die Wiederverwendung von Merkmalen. Dies unterscheidet sich von den additiven Skip-Verbindungen von ResNet. Beide zielen darauf ab, den Informationsfluss zu verbessern, nutzen aber unterschiedliche Mechanismen(DenseNet Paper).
  • Vision Transformers (ViT): Neuere Architekturen wie ViT verwenden Aufmerksamkeitsmechanismen, die vom Faltungsansatz des ResNets abweichen, und haben bei vielen Benchmarks eine konkurrenzfähige oder überlegene Leistung gezeigt, obwohl ResNets weiterhin einflussreich und weit verbreitet sind.

Werkzeuge und Umsetzung

ResNet-Architekturen sind in den wichtigsten Deep-Learning-Frameworks wie PyTorchPyTorch offizielle Seite) und TensorFlowTensorFlow official site). Vorgefertigte Modelle, die oft auf ImageNet trainiert wurden, sind über Bibliotheken wie torchvision zugänglich und ermöglichen effektives Transfer-Lernen. Plattformen wie Ultralytics HUB ermöglichen es den Nutzern, verschiedene Architekturen, darunter auch ResNet-basierte, zu nutzen, um eigene Modelle zu trainieren und sie einzusetzenUltralytics HUB Dokumentation). Weitere Bildungsressourcen zu CNNs findest du im Stanford CS231n oder in Kursen, wie sie von DeepLearning.AI angeboten werden.

Alles lesen