Glossar

Semantische Segmentierung

Entdecke die Macht der semantischen Segmentierung - klassifiziere jedes Pixel in Bildern für ein präzises Verständnis der Szene. Entdecke jetzt Anwendungen und Tools!

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Die semantische Segmentierung ist eine grundlegende Aufgabe in der Computer Vision (CV), bei der es darum geht, jedem einzelnen Pixel eines Bildes ein bestimmtes Klassenlabel zuzuweisen. Im Gegensatz zu anderen Bildverarbeitungsaufgaben, die Objekte identifizieren oder das gesamte Bild klassifizieren, liefert die semantische Segmentierung ein dichtes Verständnis des Bildinhalts auf Pixelebene. Das bedeutet, dass nicht nur erkannt wird , dass ein Auto zu sehen ist, sondern auch genau festgelegt wird , welche Pixel zur Kategorie Auto gehören und wie sie sich von den Pixeln unterscheiden, die zur Straße, zum Himmel oder zu den Fußgängern gehören. Ziel ist es, ein Bild in aussagekräftige Regionen aufzuteilen, die verschiedenen Objektkategorien entsprechen, und so ein umfassendes Verständnis der visuellen Umgebung zu erhalten.

Wie die semantische Segmentierung funktioniert

Das Hauptziel der semantischen Segmentierung besteht darin, jedes Pixel eines Bildes in eine vordefinierte Gruppe von Kategorien einzuordnen. In einem Bild mit mehreren Autos, Fußgängern und Bäumen würde ein semantisches Segmentierungsmodell zum Beispiel alle Pixel eines Autos als "Auto", alle Pixel eines Fußgängers als "Fußgänger" und alle Pixel eines Baums als "Baum" bezeichnen. Es behandelt alle Instanzen der gleichen Objektklasse identisch.

Die moderne semantische Segmentierung stützt sich stark auf Deep Learning, insbesondere auf Convolutional Neural Networks (CNNs). Diese Modelle werden in der Regel mit überwachten Lernverfahren trainiert und benötigen große Datensätze mit detaillierten Anmerkungen auf Pixelebene. Bei diesem Prozess wird ein Bild in das Netzwerk eingespeist, das dann eine Segmentierungskarte ausgibt. Bei dieser Karte handelt es sich im Wesentlichen um ein Bild, bei dem der Wert jedes Pixels (oft in Form einer Farbe) dem vorhergesagten Klassenlabel entspricht und verschiedene Kategorien wie "Straße", "Gebäude", "Person" usw. visuell voneinander trennt. Die Qualität der Datenbeschriftung ist entscheidend für das Training genauer Modelle.

Hauptunterschiede zu anderen Segmentierungsaufgaben

Es ist wichtig, die semantische Segmentierung von verwandten Computer Vision Aufgaben zu unterscheiden:

  • Bildklassifizierung: Weist dem gesamten Bild ein einziges Etikett zu (z. B. "dieses Bild enthält eine Katze"). Es werden keine Objekte lokalisiert oder umrissen.
  • Objekterkennung: Identifiziert und lokalisiert Objekte mithilfe von Begrenzungsrahmen. Sie sagt dir, wo sich Objekte befinden, gibt aber nicht ihre genaue Form auf Pixelebene an.
  • Instanz-Segmentierung: Geht einen Schritt weiter als die semantische Segmentierung, indem sie nicht nur jedes Pixel klassifiziert, sondern auch zwischen verschiedenen Instanzen derselben Objektklasse unterscheidet. So wird zum Beispiel jedem einzelnen Auto in der Szene eine eindeutige ID und Maske zugewiesen. Weitere Informationen findest du in diesem Leitfaden, der Instanz- und semantische Segmentierung vergleicht.
  • Panoptische Segmentierung: Kombiniert semantische und instanzielle Segmentierung, indem es sowohl eine Kategoriebezeichnung für jedes Pixel als auch eindeutige Instanz-IDs für zählbare Objekte ("Dinge") liefert, während es nicht zählbare Hintergrundregionen ("Zeug") wie Himmel oder Straße gruppiert.

Anwendungen in der realen Welt

Das detaillierte Verständnis einer Szene, das durch semantische Segmentierung ermöglicht wird, ist für viele Anwendungen in der Praxis entscheidend:

Modelle und Werkzeuge

Bei der semantischen Segmentierung werden häufig Deep-Learning-Modelle eingesetzt, insbesondere Architekturen, die von CNNs abgeleitet sind.

Alles lesen