Entdecke, wie ResNets das Deep Learning revolutionieren, indem sie verschwindende Gradienten lösen und ultratiefe Netze für Bildanalyse, NLP und mehr ermöglichen.
Residual Networks, allgemein bekannt als ResNet, sind eine zentrale Deep Learning (DL)-Architektur, die vor allem in der Computer Vision (CV) eingesetzt wird. ResNet wurde von Kaiming He et al. in ihrem Artikel"Deep Residual Learning for Image Recognition" vorgestellt und stellt sich der Herausforderung, sehr tiefe neuronale Netze zu trainieren. Vor ResNet führte das einfache Stapeln von mehr Schichten in einem konventionellen Convolutional Neural Network (CNN) oft zu einem Problem, das als Degradation bezeichnet wird: Die Genauigkeit sättigte und verschlechterte sich dann schnell, nicht weil die Modelle übermäßig angepasst wurden, sondern weil tiefere Modelle schwieriger zu optimieren waren. Die Innovation von ResNet ermöglicht das erfolgreiche Training von Netzwerken mit Hunderten oder sogar Tausenden von Schichten.
Die Kernidee hinter ResNet ist die Einführung von "Shortcut-Verbindungen" oder "Skip-Verbindungen". Diese Verbindungen umgehen eine oder mehrere Schichten und führen eine Identitätszuordnung durch, indem sie die Ausgabe der vorherigen Schicht zu der davor liegenden Schicht hinzufügen. Diese Struktur hilft dabei, das Problem des verschwindenden Gradienten zu lösen, mit dem tiefe Netze beim Training mittels Backpropagation oft zu kämpfen haben. Anstatt die Schichten zu zwingen, direkt eine optimale Zuordnung zu lernen, erlaubt ResNet ihnen, eine Restzuordnung in Bezug auf die Identitätsfunktion zu lernen, die von der Skip-Verbindung bereitgestellt wird. Dies erleichtert es dem Netz, bei Bedarf Identitätszuordnungen zu erlernen (d. h. ein Block kann effektiv übersprungen werden, wenn er nicht von Vorteil ist), was den Optimierungsprozess für sehr tiefe Architekturen vereinfacht und das Degradationsproblem, das bei einfachen tiefen Netzen auftritt, abschwächt.
ResNets haben sich zu einer grundlegenden Architektur in der Computer Vision entwickelt und werden in zahlreichen Anwendungen eingesetzt:
Der Hauptvorteil von ResNet ist die Fähigkeit, extrem tiefe Netze effektiv zu trainieren und so die Probleme der Degradation und des verschwindenden Gradienten zu überwinden. Dank dieser Tiefe können ResNets komplexere Muster und hierarchische Merkmale aus den Trainingsdaten lernen, was zu einer besseren Leistung bei verschiedenen Lebenslaufaufgaben führt. ResNet-Architekturen sind außerdem relativ einfach und dienen als Standardkomponente in vielen modernen Deep-Learning-Modellen. Ihre starke Leistung und Anpassungsfähigkeit haben sie zu einem Eckpfeiler in der KI-Forschung und -Anwendung gemacht. Um die Entwicklung zu beschleunigen, können Nutzer/innen mit Hilfe von Plattformen wie Ultralytics HUB vortrainierte ResNet-Modelle für das Transferlernen oder die Feinabstimmung auf eigenen Datensätzen nutzen.