Glossar

Convolution

Erfahre, wie die Faltung die KI in der Computer Vision antreibt und Aufgaben wie Objekterkennung, Bilderkennung und medizinische Bildgebung mit Präzision ermöglicht.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Die Faltung ist ein grundlegender Vorgang in vielen Computer-Vision-Anwendungen und ein wichtiger Baustein von Convolutional Neural Networks (CNNs). Dabei wird ein Filter, auch Kernel genannt, auf eine Eingabe, z. B. ein Bild, angewendet, um bestimmte Merkmale zu extrahieren. Auf diese Weise wird eine Merkmalskarte erstellt, die das Vorhandensein dieser Merkmale in der ursprünglichen Eingabe hervorhebt. Die Faltung hilft den Modellen, Muster wie Kanten, Texturen und Formen zu erkennen, die für Aufgaben wie die Objekterkennung, die Bilderkennung und die medizinische Bildanalyse wichtig sind.

Wie die Faltung funktioniert

Bei der Faltung wird ein Filter über die Eingangsdaten geschoben. An jeder Position führt der Filter eine elementweise Multiplikation mit dem entsprechenden Abschnitt der Eingabedaten durch. Die Ergebnisse dieser Multiplikationen werden dann summiert und ergeben einen einzigen Wert in der Ausgabe-Merkmalskarte. Indem dieser Vorgang für den gesamten Input wiederholt wird, entsteht eine neue Darstellung, die je nach Design des Filters bestimmte Merkmale hervorhebt. Ein Filter, der vertikale Kanten erkennen soll, erzeugt zum Beispiel eine Feature Map, in der vertikale Kanten hervorgehoben werden. Filter können so konzipiert werden, dass sie eine Vielzahl von Merkmalen erkennen, von einfachen Kanten bis hin zu komplexen Mustern.

Die wichtigsten Komponenten der Faltung

Für die Faltung sind mehrere Komponenten entscheidend:

  • Filter (Kernel): Eine kleine Matrix, die verwendet wird, um Merkmale aus den Eingabedaten zu extrahieren. Jeder Filter ist darauf ausgelegt, eine bestimmte Art von Merkmalen zu erkennen.
  • Merkmalskarte: Die Ausgabe der Faltungsoperation, die das Vorhandensein der vom Filter erkannten Merkmale hervorhebt. Feature-Maps sind für nachgelagerte Aufgaben im neuronalen Netz unerlässlich.
  • Schrittweite: Die Anzahl der Pixel, die der Filter bei jedem Schritt bewegt. Eine größere Schrittweite führt zu einer kleineren Feature Map.
  • Auffüllen: Das Hinzufügen zusätzlicher Pixel um die Eingabe herum, um die Größe der Feature Map zu kontrollieren. Das Auffüllen stellt sicher, dass der Filter auf die Kanten der Eingabe angewendet werden kann, ohne die Ausgabegröße zu verringern.

Anwendungen von Convolution

Die Faltung wird in verschiedenen Anwendungen der KI und des maschinellen Lernens eingesetzt, insbesondere in der Computer Vision. Hier sind zwei bemerkenswerte Beispiele:

1. Objekt-Erkennung

Bei der Objekterkennung hilft die Faltung bei der Identifizierung und Lokalisierung von Objekten in einem Bild. Modelle wie Ultralytics YOLO verwenden Faltungsschichten, um hierarchische Merkmale aus Bildern zu extrahieren. Diese Merkmale werden dann verwendet, um mehrere Objekte zu erkennen und ihre Position mithilfe von Begrenzungsrahmen zu bestimmen. In selbstfahrenden Autos zum Beispiel ermöglicht die Faltung die Erkennung von Fußgängern, Verkehrsschildern und anderen Fahrzeugen, was für eine sichere Navigation entscheidend ist. Hier erfährst du mehr über die Rolle von Vision AI in der selbstfahrenden Technologie.

2. Medizinische Bildgebung

Die Faltung spielt eine entscheidende Rolle bei der Analyse medizinischer Bilder wie Röntgenaufnahmen und MRTs. Durch die Anwendung von Faltungsschichten können KI-Modelle Anomalien wie Tumore oder Frakturen mit hoher Präzision erkennen. Diese Techniken werden in der medizinischen Bildanalyse eingesetzt, um Radiologen dabei zu helfen, Krankheiten schneller und genauer zu diagnostizieren.

Faltung im Vergleich zu verwandten Konzepten

Die Faltung wird oft zusammen mit verwandten Konzepten wie Pooling und Merkmalsextraktion diskutiert. Während bei der Faltung Merkmale durch die Anwendung von Filtern extrahiert werden, wird beim Pooling die Dimensionalität der Merkmalskarten durch ein Downsampling reduziert, bei dem in der Regel der Maximal- oder Durchschnittswert in einer Region genommen wird. Merkmalsextraktion ist ein weiter gefasster Begriff, der sowohl die Faltung als auch das Pooling und andere Techniken zur Ableitung aussagekräftiger Informationen aus Rohdaten umfasst.

Vorteile in der realen Welt

Die Faltung ist aufgrund ihrer Effizienz und Flexibilität in modernen KI-Anwendungen unverzichtbar geworden. Plattformen wie Ultralytics HUB ermöglichen es Nutzern, Modelle zu trainieren und einzusetzen, die die Faltung für Aufgaben wie die Echtzeit-Objekterkennung und Videoüberwachung nutzen. Darüber hinaus ermöglichen Optimierungen wie die Verwendung von Grafikprozessoren eine schnellere Verarbeitung und Skalierbarkeit für große Datensätze, was die Faltung für reale Anwendungen praktisch macht.

Alles lesen