Glossar

Convolution

Erfahre, wie die Faltung die KI in der Computer Vision antreibt und Aufgaben wie Objekterkennung, Bilderkennung und medizinische Bildgebung mit Präzision ermöglicht.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Die Faltung ist eine grundlegende mathematische Operation, die in der künstlichen Intelligenz weit verbreitet ist, insbesondere im Bereich des Computer Vision (CV). Sie bildet den Kernbaustein von Convolutional Neural Networks (CNNs) und ermöglicht es diesen Netzen, hierarchische Muster aus gitterartigen Daten wie Bildern zu lernen. Bei diesem Prozess wird ein kleiner Filter, oft Kernel genannt, auf ein Eingangssignal oder ein Bild angewendet, um eine Ausgabe zu erzeugen, die als Feature Map bezeichnet wird. Diese Feature Maps heben bestimmte Muster wie Kanten, Texturen oder Formen hervor, die vom Kernel erkannt wurden.

Wie die Faltung funktioniert

Stell dir vor, du schiebst ein kleines Vergrößerungsglas (den Kern) über ein größeres Bild (den Input). An jeder Position fokussiert die Lupe auf einen kleinen Bereich des Bildes. Bei der Faltung wird eine gewichtete Summe der Pixelwerte in diesem Bereich berechnet, wobei die Gewichte durch den Kernel definiert werden. Dieser einzelne berechnete Wert wird zu einem Pixel in der ausgegebenen Feature Map. Der Kernel gleitet systematisch und schrittweise über das gesamte Eingangsbild (definiert durch einen Parameter namens "stride") und erstellt so eine vollständige Feature Map. Verschiedene Kernel sind darauf ausgelegt, unterschiedliche Merkmale zu erkennen; so kann ein Kernel zum Beispiel horizontale Kanten erkennen, während ein anderer die Ecken erkennt. Durch die Verwendung mehrerer Kernel in einer einzigen Schicht kann ein CNN eine Vielzahl von Merkmalen aus der Eingabe extrahieren. Visuelle Erklärungen zu diesem Prozess findest du z. B. in den Stanford CS231n Kursunterlagen zu CNNs.

Die wichtigsten Komponenten der Faltung

  • Eingabedaten: In der Regel ein Mehrkanalbild (z. B. RGB-Kanäle) oder die Output-Merkmalskarte einer vorherigen Ebene.
  • Kernel (Filter): Eine kleine Matrix von Gewichten, die das zu erkennende Merkmal definiert. Diese Gewichte werden während des Modelltrainings gelernt.
  • Merkmalskarte: Die Ausgabe der Faltungsoperation, die das Vorhandensein und die räumliche Lage der erkannten Merkmale darstellt.
  • Schrittweite: Die Anzahl der Pixel, die der Kernel bei jedem Schritt über die Eingabe verschiebt.
  • Auffüllen: Das Hinzufügen von Pixeln (in der Regel Nullen) am Rand des Eingangsbildes, um die räumliche Ausdehnung der Ausgangskarte zu kontrollieren.

Anwendungen von Convolution

Faltungsschichten sind in vielen modernen KI-Anwendungen unverzichtbar:

1. Objekt-Erkennung

Bei der Objekterkennung verwenden CNNs Faltungen, um Objekte und ihre Positionen in einem Bild mithilfe von Begrenzungsrahmen zu identifizieren. Modelle wie Ultralytics YOLO verlassen sich stark auf Faltungsschichten, um Merkmale in verschiedenen Maßstäben zu extrahieren und so die Erkennung verschiedener Objekte effizient zu ermöglichen. Dies ist entscheidend für Anwendungen wie autonome Fahrzeuge, bei denen die Erkennung von Fußgängern, Autos und Verkehrsschildern in Echtzeit entscheidend für die Sicherheit ist. Erfahre mehr über KI in der Automobilindustrie.

2. Medizinische Bildanalyse

Die Faltung spielt eine wichtige Rolle bei der medizinischen Bildanalyse und hilft Radiologen bei der Analyse von Röntgen-, CT- und MRT-Aufnahmen. KI-Modelle, die CNNs verwenden, können subtile Anomalien wie Tumore oder Frakturen oft schneller und manchmal genauer erkennen als menschliche Experten allein. Der Einsatz von YOLOv11 zur Tumorerkennung ist ein Beispiel für diese Fähigkeit. Erfahre mehr über KI-Lösungen im Gesundheitswesen.

Faltung im Vergleich zu verwandten Konzepten

Die Faltung wird oft zusammen mit anderen Operationen und Konzepten in neuronalen Netzen verwendet:

  • Pooling: Während die Faltung Merkmale extrahiert, reduzieren Pooling-Schichten (wie Max Pooling oder Average Pooling) die räumlichen Dimensionen (Downsample) der Merkmalskarten. Das verringert den Rechenaufwand und macht die Merkmalsdarstellung robuster gegenüber kleinen räumlichen Schwankungen. Pooling fasst die Merkmale in einer Region zusammen, während die Faltung sie extrahiert. Weitere Einzelheiten findest du in den Ressourcen, die Pooling-Schichten in CNNs erklären.
  • Merkmalsextraktion: Dies ist ein breiterer Begriff, der sich auf den Prozess der Umwandlung von Rohdaten in numerische Merkmale bezieht, die für maschinelles Lernen genutzt werden können. Die Faltung ist eine spezielle, hocheffektive Technik zur automatischen Merkmalsextraktion aus gitterartigen Daten, insbesondere in CNNs.
  • Vollständig verknüpfte Schichten (Fully Connected Layers): Im Gegensatz zu Faltungsschichten, die Kernel lokal anwenden und Gewichte teilen, verbinden voll verknüpfte Schichten jedes Neuron der vorherigen Schicht mit jedem Neuron der aktuellen Schicht. Sie kommen normalerweise am Ende einer CNN-Architektur zum Einsatz, um eine Klassifizierung oder Regression auf der Grundlage der von den Faltungsschichten und den Pooling-Schichten extrahierten High-Level-Merkmale durchzuführen. Erfahre mehr über die Grundlagen von Neuronalen Netzen (NNs).

Um zu verstehen, wie viele moderne KI-Modelle, einschließlich der über Ultralytics HUB verfügbaren, visuelle Informationen interpretieren, ist das Verständnis der Faltung der Schlüssel. Frameworks wie PyTorch und TensorFlow bieten effiziente Implementierungen von Faltungsoperationen. Bibliotheken wie OpenCV nutzen die Faltung auch für traditionelle Bildverarbeitungsaufgaben wie Weichzeichnen und Schärfen.

Alles lesen