Erfahre, wie Mask R-CNN verwendet werden kann, um Objekte in Bildern und Videos für verschiedene Anwendungen in unterschiedlichen Bereichen präzise zu segmentieren.
Innovationen wie Roboter in Lagerhallen, selbstfahrende Autos, die sich sicher durch belebte Straßen bewegen, Drohnen, die Ernten kontrollieren, und KI-Systeme, die Produkte in Fabriken inspizieren, werden mit der zunehmenden Verbreitung von KI immer häufiger eingesetzt. Eine Schlüsseltechnologie, die diese Innovationen vorantreibt, ist die Computer Vision, ein Zweig der KI, der es Maschinen ermöglicht, visuelle Daten zu verstehen und zu interpretieren.
Die Objekterkennung zum Beispiel ist eine Aufgabe der Computer Vision, die dabei hilft, Objekte in Bildern mithilfe von Begrenzungsrahmen zu identifizieren und zu lokalisieren. Bounding Boxes bieten zwar hilfreiche Informationen, aber sie liefern nur eine grobe Schätzung der Position eines Objekts und können dessen genaue Form oder Grenzen nicht erfassen. Das macht sie für Anwendungen, die eine genaue Identifizierung erfordern, weniger effektiv.
Um dieses Problem zu lösen, haben Forscherinnen und Forscher Segmentierungsmodelle entwickelt, die die genauen Konturen von Objekten erfassen und Details auf Pixelebene für eine genauere Erkennung und Analyse liefern.
Mask R-CNN ist eines dieser Modelle. Es wurde 2017 von Facebook AI Research (FAIR) eingeführt und baut auf früheren Modellen wie R-CNN, Fast R-CNN und Faster R-CNN auf. Als wichtiger Meilenstein in der Geschichte der Computer Vision hat Mask R-CNN den Weg für fortschrittlichere Modelle geebnet, wie zum Beispiel Ultralytics YOLO11.
In diesem Artikel erfahren wir, was Maske R-CNN ist, wie sie funktioniert, welche Anwendungen es gibt und welche Verbesserungen nach ihr kamen, die zu YOLO11 führten.
Mask R-CNN steht für Mask Region-based Convolutional Neural Network und ist ein Deep-Learning-Modell, das für Computer-Vision-Aufgaben wie Objekterkennung und Instanzsegmentierung entwickelt wurde.
Die Instanzsegmentierung geht über die herkömmliche Objekterkennung hinaus, indem sie nicht nur Objekte in einem Bild identifiziert, sondern auch jedes einzelne genau umreißt. Sie weist jedem erkannten Objekt eine eindeutige Bezeichnung zu und erfasst seine genaue Form auf Pixelebene. Dieser detaillierte Ansatz ermöglicht es, zwischen sich überlappenden Objekten zu unterscheiden und komplexe Formen genau zu erfassen.
Mask R-CNN baut auf Faster R-CNN auf, das zwar Objekte erkennt und benennt, aber nicht ihre genaue Form definiert. Mask R-CNN verbessert dies, indem es die genauen Pixel identifiziert, aus denen die einzelnen Objekte bestehen, und so eine viel detailliertere und genauere Bildanalyse ermöglicht.
Mask R-CNN geht schrittweise vor, um Objekte genau zu erkennen und zu segmentieren. Es beginnt mit der Extraktion von Schlüsselmerkmalen mithilfe eines tiefen neuronalen Netzwerks (ein mehrschichtiges Modell, das aus Daten lernt), identifiziert dann potenzielle Objektbereiche mit einem Regionsvorschlagsnetzwerk (eine Komponente, die wahrscheinliche Objektregionen vorschlägt) und verfeinert diese Bereiche schließlich, indem es detaillierte Segmentierungsmasken (präzise Umrisse von Objekten) erstellt, die die genaue Form jedes Objekts erfassen.
Im Folgenden gehen wir die einzelnen Schritte durch, um eine bessere Vorstellung davon zu bekommen, wie Mask R-CNN funktioniert.
Der erste Schritt in der Architektur von Mask R-CNN besteht darin, das Bild in seine wichtigsten Bestandteile zu zerlegen, damit das Modell verstehen kann, was darin enthalten ist. Stell dir vor, du schaust dir ein Foto an und erkennst Details wie Formen, Farben und Kanten. Das Modell macht etwas Ähnliches mit einem tiefen neuronalen Netzwerk, dem sogenannten "Backbone" (oft ResNet-50 oder ResNet-101), das wie ein Auge funktioniert, um das Bild zu scannen und die wichtigsten Details zu erkennen.
Da Objekte in Bildern sehr klein oder sehr groß sein können, verwendet Mask R-CNN ein Feature-Pyramidennetzwerk. Das ist so, als hätte man verschiedene Lupen, mit denen das Modell sowohl feine Details als auch das große Ganze sehen kann, um sicherzustellen, dass Objekte aller Größen wahrgenommen werden.
Sobald diese wichtigen Merkmale extrahiert sind, geht das Modell dazu über, die potenziellen Objekte im Bild zu lokalisieren und die Voraussetzungen für die weitere Analyse zu schaffen.
Nachdem das Bild nach wichtigen Merkmalen durchsucht wurde, übernimmt das Region Proposal Network. Dieser Teil des Modells betrachtet das Bild und schlägt Bereiche vor, in denen sich wahrscheinlich Objekte befinden.
Dazu generiert es mehrere mögliche Objektpositionen, die Anker genannt werden. Das Netzwerk bewertet dann diese Anker und wählt die vielversprechendsten für die weitere Analyse aus. Auf diese Weise konzentriert sich das Modell nur auf die Bereiche, die am wahrscheinlichsten interessant sind, anstatt jede einzelne Stelle im Bild zu überprüfen.
Nachdem die Schlüsselbereiche identifiziert wurden, geht es im nächsten Schritt darum, die aus diesen Regionen extrahierten Details zu verfeinern. Frühere Modelle verwendeten eine Methode namens ROI Pooling (Region of Interest Pooling), um Merkmale aus jedem Bereich zu erfassen, aber diese Technik führte manchmal zu leichten Ausrichtungsfehlern bei der Größenänderung der Regionen, was sie weniger effektiv machte - vor allem bei kleineren oder überlappenden Objekten.
Mask R-CNN verbessert dies durch eine Technik, die als ROI Align (Region of Interest Align) bezeichnet wird. Anstatt die Koordinaten abzurunden, wie es beim ROI Pooling der Fall ist, verwendet ROI Align eine bilineare Interpolation, um die Pixelwerte genauer zu schätzen. Bei der bilinearen Interpolation wird ein neuer Pixelwert berechnet, indem die Werte der vier nächstgelegenen Nachbarn gemittelt werden, was zu weicheren Übergängen führt. So bleiben die Merkmale korrekt am Originalbild ausgerichtet, was zu einer genaueren Objekterkennung und -segmentierung führt.
Wenn zum Beispiel bei einem Fußballspiel zwei Spieler dicht beieinander stehen, könnten sie miteinander verwechselt werden, weil sich ihre Bounding Boxes überschneiden. ROI Align hilft, sie voneinander zu trennen, indem es ihre Formen unterscheidbar macht.
Sobald ROI Align das Bild verarbeitet hat, ist der nächste Schritt die Klassifizierung der Objekte und die Feinabstimmung ihrer Position. Das Modell sieht sich jede extrahierte Region an und entscheidet, welches Objekt sie enthält. Es ordnet den verschiedenen Kategorien einen Wahrscheinlichkeitswert zu und wählt die beste Übereinstimmung aus.
Gleichzeitig werden die Bounding Boxes angepasst, damit sie besser zu den Objekten passen. Die anfänglichen Bounding Boxes sind möglicherweise nicht ideal platziert. Das hilft, die Genauigkeit zu verbessern, indem sichergestellt wird, dass jede Box das erkannte Objekt eng umschließt.
Schließlich geht Mask R-CNN noch einen Schritt weiter: Es erstellt parallel eine detaillierte Segmentierungsmaske für jedes Objekt.
Als dieses Modell auf den Markt kam, wurde es von der KI-Gemeinschaft mit Begeisterung aufgenommen und bald in verschiedenen Anwendungen eingesetzt. Seine Fähigkeit, Objekte in Echtzeit zu erkennen und zu segmentieren, machte es zu einem Wendepunkt in verschiedenen Branchen.
Das Aufspüren gefährdeter Tiere in freier Wildbahn ist zum Beispiel eine große Herausforderung. Viele Arten bewegen sich durch dichte Wälder, was es für Naturschützer/innen schwierig macht, sie aufzuspüren. Herkömmliche Methoden nutzen Kamerafallen, Drohnen und Satellitenbilder, aber das manuelle Sortieren all dieser Daten ist zeitaufwändig. Falsche Identifizierungen und verpasste Sichtungen können die Schutzbemühungen verlangsamen.
Durch die Erkennung einzigartiger Merkmale wie Tigerstreifen, Giraffenflecken oder die Form der Ohren eines Elefanten kann Mask R-CNN Tiere in Bildern und Videos mit größerer Genauigkeit erkennen und segmentieren. Selbst wenn die Tiere teilweise von Bäumen verdeckt sind oder dicht beieinander stehen, kann das Modell sie trennen und jedes einzelne identifizieren, was die Überwachung von Wildtieren schneller und zuverlässiger macht.
Trotz ihrer historischen Bedeutung für die Objekterkennung und -segmentierung hat die Mask R-CNN auch einige entscheidende Nachteile. Hier sind einige Herausforderungen im Zusammenhang mit Mask R-CNN:
Masken-R-CNN war großartig für Segmentierungsaufgaben, aber viele Branchen wollten Computer Vision einführen und legten dabei Wert auf Geschwindigkeit und Echtzeitleistung. Diese Anforderung veranlasste die Forscher dazu, einstufige Modelle zu entwickeln, die Objekte in einem einzigen Durchgang erkennen und so die Effizienz erheblich verbessern.
Im Gegensatz zum mehrstufigen Prozess von Mask R-CNN konzentrieren sich einstufige Computer Vision Modelle wie YOLO (You Only Look Once) auf Echtzeit-Computer Vision Aufgaben. Anstatt Erkennung und Segmentierung getrennt zu bearbeiten, können YOLO ein Bild in einem Durchgang analysieren. Das macht sie ideal für Anwendungen wie autonomes Fahren, Gesundheitswesen, Fertigung und Robotik, bei denen schnelle Entscheidungen wichtig sind.
YOLO11 geht noch einen Schritt weiter und ist sowohl schnell als auch genau. Es verwendet 22 % weniger Parameter als YOLOv8m und erreicht dennoch eine höhere durchschnittliche Genauigkeit (mAP) im COCO-Datensatz, d. h. es erkennt Objekte genauer. Die verbesserte Verarbeitungsgeschwindigkeit macht ihn zu einer guten Wahl für Echtzeitanwendungen, bei denen es auf jede Millisekunde ankommt.
In der Geschichte der Computer Vision gilt das Mask R-CNN als großer Durchbruch bei der Objekterkennung und -segmentierung. Dank seines detaillierten mehrstufigen Prozesses liefert es selbst in komplexen Umgebungen sehr präzise Ergebnisse.
Aber genau dieser Prozess macht sie im Vergleich zu Echtzeitmodellen wie YOLO langsamer. Da der Bedarf an Geschwindigkeit und Effizienz wächst, verwenden viele Anwendungen jetzt einstufige Modelle wie Ultralytics YOLO11, die eine schnelle und genaue Objekterkennung ermöglichen. Die Maske R-CNN ist zwar wichtig, um die Entwicklung der Computer Vision zu verstehen, aber der Trend zu Echtzeitlösungen verdeutlicht den wachsenden Bedarf an schnelleren und effizienteren Computer Vision Lösungen.
Werde Teil unserer wachsenden Gemeinschaft! Erforsche unser GitHub-Repository, um mehr über KI zu erfahren. Bist du bereit, deine eigenen Computer Vision Projekte zu starten? Schau dir unsere Lizenzierungsoptionen an. Entdecke KI in der Landwirtschaft und Vision AI im Gesundheitswesen, indem du unsere Lösungsseiten besuchst!
Beginne deine Reise in die Zukunft des maschinellen Lernens