Glossar

Faltung

Erfahren Sie, wie die Faltung die KI in der Computer Vision unterstützt und Aufgaben wie Objekterkennung, Bilderkennung und medizinische Bildgebung mit Präzision ermöglicht.

Die Faltung ist ein grundlegender Vorgang beim Deep Learning (DL), insbesondere im Bereich der Computer Vision (CV). Sie dient als primärer Baustein für Convolutional Neural Networks (CNNs) und ermöglicht es den Modellen, automatisch und effizient hierarchische Merkmale aus gitterartigen Daten, wie z. B. Bildern, zu lernen. Bei diesem Prozess wird ein kleiner Filter, ein so genannter Kernel, über ein Eingabebild geschoben, um Merkmalskarten zu erstellen, die bestimmte Muster wie Kanten, Texturen oder Formen hervorheben. Diese Methode wurde von der Organisation des visuellen Kortex von Tieren inspiriert und ist sehr effektiv für Aufgaben, bei denen räumliche Beziehungen zwischen Datenpunkten wichtig sind.

Wie die Faltung funktioniert

Im Kern ist eine Faltung eine mathematische Operation, die zwei Informationsmengen zusammenführt. Im Zusammenhang mit einem CNN werden die Eingabedaten (die Pixelwerte eines Bildes) mit einem Kernel kombiniert. Der Kernel ist eine kleine Matrix von Gewichten, die als Merkmalsdetektor fungiert. Dieser Kernel gleitet über die Höhe und Breite des Eingabebildes und führt an jeder Position eine elementweise Multiplikation mit dem überlappenden Teil des Bildes durch. Die Ergebnisse werden summiert, um ein einzelnes Pixel in der Ausgabemerkmalskarte zu erstellen. Dieser gleitende Prozess wird für das gesamte Bild wiederholt.

Durch die Verwendung verschiedener Kernel kann ein CNN lernen, eine breite Palette von Merkmalen zu erkennen. Frühe Schichten können lernen, einfache Muster wie Kanten und Farben zu erkennen, während tiefere Schichten diese grundlegenden Merkmale kombinieren können, um komplexere Strukturen wie Augen, Räder oder Text zu erkennen. Diese Fähigkeit, eine Hierarchie visueller Merkmale aufzubauen, verleiht CNNs ihre Stärke bei Sehaufgaben. Dieser Prozess wird durch zwei Schlüsselprinzipien rechnerisch effizient gestaltet:

  • Gemeinsame Nutzung von Parametern: Für das gesamte Bild wird derselbe Kernel verwendet, wodurch die Gesamtzahl der erlernbaren Parameter im Vergleich zu einem vollständig verbundenen Netzwerk drastisch reduziert wird. Dieses Konzept der effizienten Parameternutzung trägt auch zu einer besseren Generalisierung des Modells bei.
  • Räumliche Lokalisierung: Bei diesem Verfahren wird davon ausgegangen, dass nahe beieinander liegende Pixel stärker miteinander verbunden sind als weit entfernte, eine starke induktive Verzerrung, die bei natürlichen Bildern sehr effektiv ist.

Bedeutung für Deep Learning

Die Faltung ist der Eckpfeiler der modernen Computer Vision. Modelle wie Ultralytics YOLO nutzen Faltungsschichten in ihren Backbone-Architekturen für eine leistungsstarke Merkmalsextraktion in großem Umfang. Dies ermöglicht eine breite Palette von Anwendungen, von der Objekterkennung und Bildsegmentierung bis hin zu komplexeren Aufgaben. Die Effizienz und Effektivität der Faltung hat sie zur bevorzugten Methode für die Verarbeitung von Bildern und anderen räumlichen Daten gemacht und bildet die Grundlage für viele hochmoderne Architekturen, die in Ressourcen wie der Geschichte der Bildverarbeitungsmodelle beschrieben werden.

Anwendungen in der realen Welt

  • Medizinische Bildanalyse: In der KI für das Gesundheitswesen verwenden CNNs Faltungen, um medizinische Scans wie MRTs oder CTs zu analysieren. Kernel können so trainiert werden, dass sie die spezifischen Strukturen und Formen erkennen, die für Tumore oder andere Anomalien charakteristisch sind, und Radiologen helfen, schnellere und genauere Diagnosen zu stellen. Weitere Informationen zu diesen Fortschritten finden Sie in Zeitschriften wie Radiology: Künstliche Intelligenz.
  • Autonome Fahrzeuge: Selbstfahrende Autos verlassen sich auf CNNs, um ihre Umgebung wahrzunehmen. Faltungen verarbeiten Eingaben von Kameras in Echtzeit, um Fußgänger, andere Fahrzeuge, Verkehrsspuren und Straßenschilder zu erkennen. Auf diese Weise kann das System des Fahrzeugs ein umfassendes Verständnis seiner Umgebung aufbauen und sicher navigieren, wie die von Unternehmen wie Waymo entwickelte Technologie zeigt.

Faltung im Vergleich zu verwandten Konzepten

Es ist hilfreich, die Faltung von anderen Operationen neuronaler Netze zu unterscheiden:

  • Vollständig verknüpfte Schichten: In einer vollständig verknüpften Schicht ist jedes Neuron mit jedem Neuron der vorherigen Schicht verbunden. Für Bilder ist dies äußerst ineffizient, da es die räumliche Struktur ignoriert und zu einer großen Anzahl von Parametern führt. Die Faltung mit ihrer lokalen Konnektivität und der gemeinsamen Nutzung von Parametern ist wesentlich skalierbarer und besser für Bilddaten geeignet.
  • Bildtransformatoren (ViT): Im Gegensatz zur lokalen Merkmalserkennung von CNNs verwenden Vision Transformers einen Mechanismus der Selbstaufmerksamkeit, um globale Beziehungen zwischen verschiedenen Bildbereichen zu modellieren. ViTs sind zwar leistungsfähig, benötigen aber in der Regel größere Datensätze, um diese Beziehungen von Grund auf zu erlernen, während sie aufgrund der induktiven Verzerrung von Faltungen dateneffizienter sind. Hybridmodelle wie RT-DETR versuchen, die Stärken beider Ansätze zu kombinieren.

Tools und Schulungen

Die Implementierung und das Training von Modellen, die Faltung verwenden, wird durch verschiedene Deep-Learning-Frameworks erleichtert. Bibliotheken wie PyTorch(PyTorch official site) und TensorFlow(TensorFlow official site) bieten robuste Tools für die Erstellung von CNNs. High-Level-APIs wie Keras vereinfachen die Entwicklung weiter.

Plattformen wie Ultralytics HUB ermöglichen es den Nutzern, Datensätze zu verwalten, Modelle zu trainieren und leistungsstarke Modelle wie YOLO11 mit Leichtigkeit einzusetzen. Das Verständnis von Kernkonzepten wie Faltung, Kernelgröße, Stride, Padding und dem daraus resultierenden rezeptiven Feld ist entscheidend für effektives Modelltraining und Architekturdesign.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert