Glossar

Faltungsneuronales Netzwerk (CNN)

Entdecke, wie Convolutional Neural Networks (CNNs) die Computer Vision revolutionieren und die KI im Gesundheitswesen, bei selbstfahrenden Autos und vielem mehr unterstützen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Ein neuronales Faltungsnetzwerk (Convolutional Neural Network, CNN) ist ein spezieller Typ eines neuronalen Netzwerks (NN), das besonders effektiv bei der Verarbeitung von gitterartigen Daten wie Bildern und Videos ist. Im Gegensatz zu herkömmlichen neuronalen Netzen, die Eingaben als flache Vektoren behandeln, sind CNNs so konzipiert, dass sie automatisch und adaptiv räumliche Hierarchien von Merkmalen direkt aus den Eingabedaten lernen. Dies wird in erster Linie durch die Anwendung der Faltungsoperation erreicht, was sie zu einem Eckpfeiler des modernen Computer Vision (CV) macht und zu bedeutenden Fortschritten in der Künstlichen Intelligenz (KI) führt. Ihre Fähigkeit, lokale Abhängigkeiten und räumliche Beziehungen zu erfassen, macht sie besonders geeignet für Aufgaben, bei denen es auf die Anordnung der Pixel ankommt.

Kernkomponenten und Funktionsweise

CNNs bestehen in der Regel aus mehreren Schlüsselschichten, die visuelle Informationen verarbeiten und umwandeln:

  • Faltungsschichten (Convolutional Layers): Dies sind die grundlegenden Schichten eines CNN. Sie wenden eine Reihe von lernfähigen Filtern (Kernels) auf das Eingangsbild an. Jeder Filter erkennt bestimmte Merkmale wie Kanten, Ecken oder Texturen. Während der Filter über das Eingangsbild gleitet (konvolviert), erstellt er Merkmalskarten, die die Position und Stärke der erkannten Merkmale hervorheben. Das Netzwerk lernt diese Filter automatisch während des Modelltrainings.
  • Aktivierungsschichten: Nach den Faltungsschichten führen Aktivierungsfunktionen wie ReLU (Rectified Linear Unit) oder Leaky ReLU Nichtlinearität ein. Dadurch kann das Netzwerk komplexere Muster lernen, die über einfache lineare Kombinationen hinausgehen.
  • Pooling-Schichten: Diese Schichten reduzieren die räumliche Ausdehnung (Breite und Höhe) der Merkmalskarten, verringern den Rechenaufwand und kontrollieren die Überanpassung. Eine gängige Methode ist das Max-Pooling, bei dem der Maximalwert in einer lokalen Region genommen wird, um das Netz robuster gegenüber Schwankungen in der Position der Merkmale zu machen. Ein Überblick über die Pooling-Methoden liefert weitere Details.
  • Vollständig verbundene Schichten (Fully Connected Layers): Diese Schichten befinden sich in der Regel am Ende des Netzwerks und verbinden jedes Neuron der vorherigen Schicht mit jedem Neuron der aktuellen Schicht, ähnlich wie ein herkömmliches neuronales Feedforward-Netzwerk. Sie verwenden die von den Faltungsschichten und den Pooling-Schichten extrahierten High-Level-Merkmale, um Klassifizierungs- oder Regressionsaufgaben zu erfüllen, z. B. um dem Bild eine endgültige Bezeichnung zuzuweisen.

Hauptunterschiede zu anderen neuronalen Netzen

CNNs besitzen einzigartige Eigenschaften, die sie von anderen Netzwerktypen unterscheiden:

  • Spatial Hierarchy: Anders als einfache NNs modellieren CNNs explizit räumliche Beziehungen. Die ersten Schichten erkennen einfache Merkmale (Kanten), während die tieferen Schichten diese kombinieren, um komplexere Muster (Formen, Objekte) zu erkennen. Diese hierarchische Struktur ahmt Aspekte der menschlichen visuellen Verarbeitung nach.
  • Parameter-Sharing: Ein einziger Filter wird auf verschiedene Teile des Eingangsbildes angewendet, wodurch sich die Gesamtzahl der Parameter im Vergleich zu einem vollständig verknüpften Netzwerk, das dasselbe Bild verarbeitet, erheblich verringert. Das macht CNNs effizienter und weniger anfällig für eine Überanpassung, insbesondere bei großen Bildern. Der Bereich, den ein Filter an einem beliebigen Punkt abdeckt, wird als sein rezeptives Feld bezeichnet.
  • Translationsinvarianz: Dank Pooling und Parameter-Sharing können CNNs ein Objekt auch dann erkennen, wenn sich seine Position im Bild leicht verschiebt.
  • vs. Rekurrente Neuronale Netze (RNNs): Während CNNs sich hervorragend für die Verarbeitung räumlicher Daten wie Bilder eignen, sind rekurrente neuronale Netze (RNNs) für sequentielle Daten konzipiert und eignen sich daher für Aufgaben wie die Verarbeitung natürlicher Sprache (NLP) und Zeitreihenanalysen.

Anwendungen in der realen Welt

CNNs sind die treibende Kraft hinter zahlreichen Durchbrüchen in verschiedenen Bereichen:

  1. Medizinische Bildanalyse: In der KI im Gesundheitswesen analysieren CNNs medizinische Scans wie Röntgenaufnahmen, CTs und MRTs. Sie helfen Radiologen dabei, subtile Anomalien wie Tumore, Frakturen oder diabetische Retinopathie zu erkennen. Forschungsergebnisse, die in Zeitschriften wie Radiology: Artificial Intelligence zeigt, dass CNNs Muster erkennen, die auf Krankheiten hinweisen, und dabei oft eine hohe Genauigkeit erreichen. Zum Beispiel haben Modelle wie Ultralytics YOLO können für Aufgaben wie die Tumorerkennung in der medizinischen Bildgebung angepasst werden und zeigen so die praktische Anwendung von CNN-basierten Architekturen in der medizinischen Bildanalyse.
  2. Autonome Fahrzeuge: CNNs sind entscheidend für KI in selbstfahrenden Autos. Sie treiben Wahrnehmungssysteme an, die in Echtzeit Objekte erkennen, um Fußgänger, Fahrzeuge, Verkehrsschilder und Fahrbahnmarkierungen anhand von Daten aus Kameras und LiDAR zu identifizieren. So kann das Fahrzeug seine Umgebung verstehen und sichere Fahrentscheidungen treffen. Unternehmen wie Waymo verlassen sich bei ihren autonomen Systemen stark auf CNNs. CNNs tragen auch zur Bildsegmentierung bei und ermöglichen es den Fahrzeugen, befahrbare Bereiche von Hindernissen zu unterscheiden.

Tools und Frameworks

Die Entwicklung und der Einsatz von CNNs wird durch leistungsstarke Deep Learning (DL) Tools und Frameworks unterstützt:

Alles lesen