Grüner Scheck
Link in die Zwischenablage kopiert

Was ist Instanzensegmentierung? Ein kurzer Leitfaden

Wir schauen uns genauer an, was Instanzsegmentierung ist, wie sie funktioniert, wie sie in verschiedenen Computer Vision Anwendungen eingesetzt wird und welche Auswirkungen sie haben kann.

Bildverarbeitungsanwendungen werden in unserem täglichen Leben immer häufiger eingesetzt, von Verkehrskameras, die den Straßenzustand überwachen, bis hin zu Selbstbedienungskassen in Geschäften. Indem sie Maschinen in die Lage versetzt, visuelle Daten ähnlich wie Menschen zu verstehen, hat Vision AI Einfluss auf eine Reihe von Branchen.

Viele dieser Anwendungen beruhen auf der Objekterkennung, einer Aufgabe der Computer Vision, bei der Bounding Boxes um wichtige Objekte im Bild platziert werden. Dieser Ansatz funktioniert zwar oft gut, aber manche Bildanalyselösungen erfordern eine noch höhere Präzision.

In der medizinischen Bildgebung geht es zum Beispiel nicht nur darum, einen Tumor zu erkennen, sondern auch darum, seine genaue Form zu umreißen. Auch in der Robotik müssen Maschinen die genauen Konturen eines Objekts erkennen, um es richtig greifen zu können. Um diese Herausforderungen zu meistern, bietet die Instanzsegmentierung eine präzisere Lösung.

Die Instanzsegmentierung ist eine Aufgabe der Computer Vision, die für Anwendungsfälle entwickelt wurde, in denen das Erkennen von Objekten nicht ausreicht - sie liefert Genauigkeit auf Pixelebene. Computer Vision Modelle wie Ultralytics YOLO11 können verwendet werden, um die Instanzsegmentierung auf Bilder und Videos einfach anzuwenden. 

Abb. 1. Beispiel für die Verwendung von YOLO11 zur Segmentierung von Instanzen.

In diesem Leitfaden erläutern wir, wie die Instanzsegmentierung funktioniert, welche Anwendungen es gibt und wie Ultralytics YOLO11 für bestimmte Segmentierungsaufgaben angepasst werden kann.

Was ist Instanzensegmentierung?

Nehmen wir an, es gibt ein Gruppenfoto mit eng beieinander stehenden Personen. Die Objekterkennung kann helfen, Kästchen um die einzelnen Personen zu zeichnen, aber das sagt nichts über ihre genaue Form aus. 

Die Instanzensegmentierung hingegen ist vergleichbar mit dem sorgfältigen Nachzeichnen der Umrisse jeder Person, so dass du ihren gesamten Umriss sehen kannst, auch wenn sie sich überlappen. Anstatt nur mit einem Kästchen zu markieren, wo sich etwas befindet, wird die genaue Form jedes Objekts auf Pixelebene identifiziert, was das Verständnis komplexer Bilder erleichtert.

Das Ergebnis ist eine detaillierte Maske, die die Form eines Objekts ausfüllt und genau angibt, welche Pixel zu ihm gehören. Diese Präzision ist in vielen realen Anwendungen nützlich, bei denen es wichtig ist, die genaue Form und die Grenzen von Objekten zu kennen.

Abb. 2. Zeigt die Unterstützung von YOLO11für die Segmentierung von Instanzen.

Instanzsegmentierung vs. semantische Segmentierung

Wenn du dich mit der Instanzsegmentierung befasst, stößt du vielleicht auf das Konzept der semantischen Segmentierung.

Beide Techniken helfen Computern, Bilder auf Pixelebene zu verstehen, aber sie dienen unterschiedlichen Zwecken. Bei der semantischen Segmentierung wird jedes Pixel auf der Grundlage seiner Kategorie gekennzeichnet, sodass alle Objekte desselben Typs in Gruppen zusammengefasst werden. In einem Bild mit mehreren Autos würde die semantische Segmentierung zum Beispiel alle als "Auto" kennzeichnen, ohne zwischen den einzelnen Fahrzeugen zu unterscheiden.

Die Instanzensegmentierung hingegen geht noch einen Schritt weiter, indem sie jedes Objekt einzeln identifiziert. Sie ordnet den einzelnen Instanzen eindeutige Bezeichnungen zu und erstellt präzise Masken um ihre Formen. Im gleichen Bild würde die Instanzsegmentierung also nicht einfach alles als "Auto" bezeichnen, sondern jedes Auto einzeln erkennen und umreißen.

Der Hauptunterschied zwischen den beiden ist, dass bei der semantischen Segmentierung Objekte nach Kategorien gruppiert werden, während bei der Instanzsegmentierung jedes Objekt als einzigartige Einheit mit klaren Grenzen unterschieden wird. Die Wahl der richtigen Aufgabe hängt von der jeweiligen Anwendung ab - ob es ausreicht zu wissen, was in einem Bild ist, oder ob es wichtig ist, zwischen einzelnen Objekten zu unterscheiden.

Abb. 3. Instanzsegmentierung vs. semantische Segmentierung (rechts bzw. links).

Beliebte Modelle zur Segmentierung von Instanzen

Der Vision AI-Gemeinde stehen heute verschiedene Modelle zur Segmentierung von Instanzen zur Verfügung. Manche sind schneller, manche genauer und manche einfacher zu bedienen. 

Diese Optionen sind zwar nützlich, aber es stellt sich die Frage, welche davon die richtige für eine bestimmte Aufgabe ist. Unter den Optionen sind dieYOLO Ultralytics sehr beliebt, weil sie sich auf Geschwindigkeit und Genauigkeit konzentrieren. 

Außerdem haben sich diese Modelle im Laufe der Jahre stark weiterentwickelt. Zum Beispiel, Ultralytics YOLOv5 den Einsatz von Frameworks wie PyTorch vereinfacht und damit fortschrittliche Vision AI für ein breiteres Publikum zugänglich gemacht, ohne dass tiefgreifende technische Kenntnisse erforderlich sind.

Wir bauen auf diesem Erfolg auf, Ultralytics YOLOv8 erweiterte Unterstützung für Computer-Vision-Aufgaben wie Instanzensegmentierung, Posenschätzung und Bildklassifizierung. 

Jetzt hebt YOLO11 die Leistung auf ein neues Niveau. Es erreicht eine höhere durchschnittliche Genauigkeit (mAP) auf dem COCO-Datensatz mit 22% weniger Parametern als YOLOv8m, d.h. es kann Objekte präziser erkennen und verbraucht dabei weniger Ressourcen.

Abb. 4. Benchmarking YOLO11.

Kurz gesagt: YOLO11 bietet modernste Genauigkeit, ohne Kompromisse bei der Effizienz einzugehen, und ist damit ein echter Wendepunkt im Feld.

Verstehen, wie die Instanzsegmentierung funktioniert

Als Nächstes wollen wir uns ansehen, wie die Segmentierung von Instanzen normalerweise funktioniert. Ältere Computer Vision Modelle verwenden einen zweistufigen Ansatz. 

Zuerst erkennen sie Objekte, indem sie Bounding Boxes um sie herum zeichnen. Dann erstellen sie eine Maske auf Pixelebene, um die genaue Form jedes Objekts zu umreißen. Ein bekanntes Beispiel ist Mask R-CNN, das auf Objekterkennungsmodellen aufbaut, indem es einen Maskenvorhersageschritt hinzufügt. Diese Methode ist zwar effektiv, kann aber langsam sein, weil sie das Bild in mehreren Schritten verarbeitet, was Echtzeitanwendungen erschwert.

Modelle wie YOLO11 hingegen verarbeiten Bilder in einem Durchgang und sagen gleichzeitig Objektbegrenzungsrahmen und Instanzsegmentierungsmasken voraus. Dieser schlanke Ansatz macht sie viel schneller, während sie gleichzeitig eine hohe Genauigkeit beibehalten. Daher ist es besonders nützlich für Echtzeitanwendungen wie autonomes Fahren, Videoanalyse und Robotik, bei denen sowohl Geschwindigkeit als auch Präzision entscheidend sind.

Benutzerdefiniertes Training YOLO11 für die Segmentierung von Instanzen

YOLO11 wird als vortrainiertes Modell ausgeliefert. Es wurde mit dem COCO-Seg-Datensatz trainiert, der alltägliche Objekte für die Segmentierung von Beispielen umfasst. DasPython von Ultralytics unterstützt jedoch benutzerdefiniertes Training, das für spezielle Anwendungen, bei denen einzigartige Objekte segmentiert werden müssen, unerlässlich ist.

Warum ist ein individuelles Training oder die Feinabstimmung eines Modells wichtig? Das benutzerdefinierte Training nutzt das Transfer-Lernen, indem es auf dem Wissen aufbaut, das bereits in vortrainierten Modellen enthalten ist. Anstatt bei Null anzufangen, wird ein bestehendes Modell an neue Aufgaben angepasst, indem kleinere Datensätze und weniger Rechenressourcen verwendet werden, ohne dass die Genauigkeit leidet.

Wie man YOLO11 ausbildet

Hier ist ein genauerer Blick auf die Schritte, die zur Feinabstimmung von YOLO11 gehören, z.B. die Segmentierung: 

  • Datenaufbereitung: Sammle Bilder und beschrifte sie für deine spezifische Anwendung. Ultralytics bietet Unterstützung für mehrere Bilddatensätze, aber du kannst auch mit deinem eigenen Datensatz trainieren, indem du Bilder und Anmerkungen im erforderlichen YOLO vorbereitest.
  • Ein bereits trainiertes Modell verwenden: Anstatt ganz von vorne anzufangen, kannst du ein bereits trainiertes Ultralytics YOLO11 verwenden.
  • Modelltraining: Passe wichtige Trainingseinstellungen wie Stapelgröße (verarbeitete Bilder pro Iteration), Bildgröße (Zielauflösung der Eingabe) und Epochen (Gesamtzahl der Trainingszyklen) an und trainiere das Modell.
  • Leistungsbewertung: Nachdem das Modelltraining abgeschlossen ist, kannst du die Genauigkeit des Modells mithilfe von Leistungskennzahlen wie mAP testen. Das Ultralytics Python bietet auch integrierte Funktionen für die Modellbewertung.

Anwendungen für die Instanzsegmentierung, die durch YOLO11 ermöglicht werden

Die Instanzensegmentierung kann zur Lösung realer Herausforderungen eingesetzt werden, indem sie Maschinen hilft, Objekte genauer zu sehen und zu verstehen. Von der Verbesserung der Automatisierung bis zum Schutz der Umwelt spielt sie in vielen Bereichen eine wichtige Rolle. Sehen wir uns einige Beispiele an, in denen sie zum Einsatz kommt.

Sicherheit und Überwachung auf der Baustelle mit YOLO11

Die Segmentierung von Instanzen kann ein entscheidender Faktor für die Sicherheit und Effizienz auf Baustellen sein. Sie kann zum Beispiel zur Überwachung schwerer Maschinen eingesetzt werden. 

YOLO11 kann so eingestellt werden, dass es verschiedene Arten von Maschinen wie Kräne, Bagger und Planierraupen genau segmentiert und identifiziert und ihre Positionen in Echtzeit verfolgt. So können Bauleiter/innen sicherstellen, dass die Maschinen nur in den dafür vorgesehenen Bereichen eingesetzt werden und nicht in Bereiche eindringen, in denen sich Arbeiter/innen aufhalten oder Gefahren bestehen. 

Durch die Integration solcher Lösungen in Echtzeit-Alarmsysteme können außerdem schnell Korrekturmaßnahmen ergriffen werden. Darüber hinaus können die gesammelten Erkenntnisse dazu beitragen, die Gestaltung der Baustelle und die Arbeitsabläufe zu optimieren, was die Risiken weiter verringert und die Produktivität steigert.

Abb. 5. Überwachung schwerer Maschinen mit YOLO11.

Tierüberwachung mit Segmentierung und YOLO11

Die Überwachung des Tierverhaltens hilft Forschern, Landwirten und Naturschützern, sich besser um die Tiere in verschiedenen Umgebungen zu kümmern. Die Instanzsegmentierung spielt in diesen Systemen eine hilfreiche Rolle, indem sie einzelne Tiere in Farmen, Zoos und natürlichen Lebensräumen identifiziert und segmentiert. Im Gegensatz zur herkömmlichen Objekterkennung, bei der Bounding Boxes verwendet werden, liefert die Instanzsegmentierung eine pixelgenaue Abgrenzung der einzelnen Tiere, was besonders nützlich ist, wenn sich die Tiere in unmittelbarer Nähe befinden.

Eine detaillierte Segmentierung ermöglicht eine genauere Verfolgung von Bewegungen und Verhaltensweisen. Sich überschneidende oder eng beieinander liegende Tiere können eindeutig erkannt werden und ermöglichen eine genauere Analyse von Interaktionen, Gesundheitsbewertungen und Aktivitätsmustern. Insgesamt verbessern tiefere Einblicke in das Tierverhalten die Tierpflege und die Managementpraktiken.

Abb. 6. Überwachung von Rindern mithilfe der Instanzensegmentierung.

YOLO11 in der Sportanalyse und Spielerverfolgung

Die genaue Verfolgung von Spielern und Ereignissen ist ein wichtiger Bestandteil der Sportanalyse. Herkömmliche Tracking-Methoden beruhen auf manueller Markierung, die möglicherweise keine detaillierten Interaktionen erfasst. Mithilfe von Computer Vision können Details wie Spieler, Bälle und Schlüsselereignisse auf Pixelebene aufgeschlüsselt werden, um detaillierte Einblicke zu erhalten.

Zum Beispiel kann die Segmentierung von Instanzen dabei helfen, Ereignisse wie Fouls oder Vorfälle abseits des Balls zu erkennen, indem die einzelnen Spieler und Objekte klar voneinander getrennt werden. Diese granulare Überwachung, die durch Modelle wie YOLO11 ermöglicht wird, bietet Analysten klarere Informationen, um Bewegungsmuster, räumliche Positionierung und Interaktionen mit hoher Genauigkeit zu untersuchen. Ein wichtiger Vorteil dieser Erkenntnisse ist, dass sie den Teams helfen, ihre Strategien zu verfeinern und die Gesamtleistung zu steigern.

Vor- und Nachteile der Instanzensegmentierung

Hier sind einige der wichtigsten Vorteile, die die Instanzsegmentierung für verschiedene Branchen bringen kann:

  • Verbesserte Automatisierung: Durch die Automatisierung von Aufgaben wie Qualitätskontrolle und Sicherheitsüberwachung reduziert die Instanzsegmentierung den Bedarf an manuellen Eingriffen und minimiert menschliche Fehler.
  • Besseres Verständnis der Szene: Indem jedes Objekt genau umrissen wird, trägt die Instanzsegmentierung zu einem tieferen Verständnis komplexer Szenen bei und unterstützt so eine fundierte Entscheidungsfindung.
  • Effiziente Nachbearbeitung: Die Ausgabe auf Pixelebene vereinfacht Aufgaben wie die Entfernung des Hintergrunds, das Zählen von Objekten und die räumliche Analyse und reduziert die Notwendigkeit zusätzlicher Verarbeitungsschritte.

Diese Vorteile machen deutlich, wie sich die Instanzensegmentierung auf verschiedene Anwendungsfälle auswirkt, aber es ist auch wichtig, die Herausforderungen bei ihrer Umsetzung zu berücksichtigen. 

Hier sind einige der wichtigsten Einschränkungen der Instanzensegmentierung:

  • Herausforderungen bei Transparenz: Die Segmentierung transparenter oder reflektierender Objekte wie Glas und Wasser ist schwierig und führt zu ungenauen Grenzen.
  • Wartungsaufwand: Um die Modelle genau und relevant zu halten, sind ständige Aktualisierungen und Feinabstimmungen erforderlich, wenn sich Umweltbedingungen und Datensätze ändern.
  • Hoher Annotationsaufwand: Das Training von Instanzsegmentierungsmodellen erfordert detaillierte Annotationen auf Pixelebene, was den Zeit- und Kostenaufwand für die Datenaufbereitung erheblich erhöht.

Die wichtigsten Erkenntnisse

Die Instanzsegmentierung ermöglicht es, einzelne Objekte präzise zu unterscheiden, selbst wenn sie sich überschneiden. Indem sie die Objektgrenzen auf Pixelebene erfasst, ermöglicht sie ein tieferes Verständnis der visuellen Daten im Vergleich zu traditionellen Computer Vision Aufgaben wie der Objekterkennung.

Die jüngsten Fortschritte in der Computer Vision haben die Segmentierung von Instanzen schneller und einfacher gemacht. Insbesondere Computer-Vision-Modelle wie Ultralytics YOLO11 vereinfachen den Prozess und ermöglichen eine Echtzeit-Segmentierung mit minimaler Einrichtung, was sie für verschiedene Branchen und Anwendungen zugänglicher macht.

Neugierig auf KI? Besuche unser GitHub-Repository und verbinde dich mit unserer Community, um weiter zu forschen. Erfahre mehr über Innovationen wie KI in selbstfahrenden Autos und Vision AI in der Landwirtschaft auf unseren Lösungsseiten. Schau dir unsere Lizenzierungsoptionen an und fang mit einem Computer Vision Projekt an!

Facebook-LogoTwitter-LogoLinkedIn-LogoKopier-Link-Symbol

Lies mehr in dieser Kategorie

Lass uns gemeinsam die Zukunft
der KI gestalten!

Beginne deine Reise in die Zukunft des maschinellen Lernens