Entdecke, wie ResNets das Deep Learning revolutionieren, indem sie verschwindende Gradienten lösen und ultratiefe Netze für Bildanalyse, NLP und mehr ermöglichen.
Residual Networks, allgemein bekannt als ResNet, sind eine bahnbrechende Architektur für Faltungsneuronale Netze (CNN), die von Kaiming He und Kollegen bei Microsoft Research entwickelt wurde. ResNet wurde 2015 in der Arbeit"Deep Residual Learning for Image Recognition" vorgestellt und befasst sich mit einer der größten Herausforderungen beim Deep Learning (DL): dem Degradationsproblem. Dieses Problem tritt auf, wenn das Hinzufügen weiterer Schichten zu einem sehr tiefen Netzwerk zu höheren Trainingsfehlern führt, entgegen der Erwartung, dass tiefere Modelle besser funktionieren sollten. Die Innovation von ResNet ermöglichte das erfolgreiche Training von Netzen, die wesentlich tiefer waren als bisher möglich, und brachte den Stand der Technik bei verschiedenen Aufgaben des Computer Vision (CV) deutlich voran.
Die Kernidee von ResNet ist die Einführung von "Skip Connections" oder "Shortcut Connections". In herkömmlichen tiefen Netzen geht jede Schicht nacheinander in die nächste ein. ResNet ändert dies, indem es die Eingabe eines Blocks von Schichten zur Ausgabe dieses Blocks hinzufügt. Dadurch entsteht ein "Restblock", in dem die Schichten eine Restabbildung (die Differenz zwischen der Eingabe und der gewünschten Ausgabe) lernen, anstatt zu versuchen, die gesamte zugrunde liegende Abbildung direkt zu lernen. Wenn die optimale Funktion näher an einer Identitätszuordnung liegt (bei der die Ausgabe mit der Eingabe übereinstimmen sollte), ist es für das Netzwerk einfacher zu lernen, die Residualfunktion auf Null zu setzen (indem die Gewichte der gestapelten Schichten gegen Null getrieben werden), als die Identitätszuordnung selbst durch nichtlineare Schichten zu lernen.
Diese Skip-Verbindungen erleichtern den Gradientenfluss während der Backpropagation und entschärfen so das Problem des verschwindenden Gradienten, das oft bei sehr tiefen Netzen auftritt. Dies ermöglicht den Aufbau und das effektive Training von Netzen mit Hunderten oder sogar Tausenden von Schichten, die eine bemerkenswerte Verbesserung der Genauigkeit bei anspruchsvollen Benchmark-Datensätzen wie ImageNet erzielen.
ResNet-Architekturen wurden schnell zum Standard für viele Bildverarbeitungsaufgaben, die über die Bildklassifizierung hinausgehen, z. B:
Ihre Fähigkeit, aussagekräftige Merkmale aus Bildern zu extrahieren, machte sie zu einer äußerst vielseitigen und weit verbreiteten Architektur.
ResNet-Architekturen sind in den wichtigsten Deep-Learning-Frameworks wie PyTorchPyTorch offizielle Seite) und TensorFlowTensorFlow official site). Vorgefertigte Modelle, die oft auf ImageNet trainiert wurden, sind über Bibliotheken wie torchvision zugänglich und ermöglichen effektives Transfer-Lernen. Plattformen wie Ultralytics HUB ermöglichen es den Nutzern, verschiedene Architekturen, darunter auch ResNet-basierte, zu nutzen, um eigene Modelle zu trainieren und sie einzusetzenUltralytics HUB Dokumentation). Weitere Bildungsressourcen zu CNNs findest du im Stanford CS231n oder in Kursen, wie sie von DeepLearning.AI angeboten werden.