Ein Begrenzungsrahmen (Bounding Box) ist ein rechteckiger Rahmen, der in der Computer Vision (CV) verwendet wird, um die Position und ungefähre Ausdehnung eines Objekts innerhalb eines Bildes oder Videobildes anzugeben. Sie werden in der Regel durch die Koordinaten der linken oberen und rechten unteren Ecke (oder des Mittelpunkts, der Breite und der Höhe) definiert und stellen eine einfache und effektive Methode dar, um zu bestimmen, wo sich ein Objekt befindet und wie viel Platz es einnimmt. Bounding Boxes sind grundlegende Komponenten für verschiedene Lebenslaufaufgaben wie Objekterkennung, Objektverfolgung und Bildbeschriftung und bilden einen Eckpfeiler vieler moderner Systeme für künstliche Intelligenz (KI) und maschinelles Lernen (ML). Sie sind unerlässlich, damit Maschinen nicht nur verstehen können , welche Objekte vorhanden sind, sondern auch , wo sie sich in einer visuellen Szene befinden.
Bedeutung für die Objekterkennung
Bounding Boxes sind sowohl für das Training als auch für die Auswertung von Objekterkennungsmodellen entscheidend. Bei Aufgaben, die von Modellen wie Ultralytics YOLOverwendet werden, dienen Bounding Boxes während des Trainingsprozesses als "Grundwahrheit". Das bedeutet, dass sie die korrekte Position und Größe von Objekten in den Trainingsdaten darstellen und dem Modell beibringen, Objekte genau zu lokalisieren. Dieser Prozess beginnt oft mit einer sorgfältigen Datenbeschriftung, bei der Menschen oder automatisierte Tools diese Boxen um die Objekte in den Bildern zeichnen. Dabei werden häufig Plattformen wie CVAT verwendet oder mit Plattformen wie Ultralytics HUB für die Datensatzverwaltung integriert. Während der Inferenz sagt das trainierte Modell die Bounding Boxes um die erkannten Objekte zusammen mit den Klassenbezeichnungen und Vertrauenswerten voraus. Diese Lokalisierungsfunktion ist wichtig für Anwendungen, die nicht nur die Identifizierung von Objekten, sondern auch deren genaue Position erfordern.
Wichtige Konzepte im Zusammenhang mit Bounding Boxes
Mehrere Metriken und Techniken sind eng mit der Verwendung und Bewertung von Bounding Boxes in ML-Modellen verbunden:
- Intersection over Union (IoU): Eine Metrik, mit der die Überschneidung zwischen dem vorhergesagten Begrenzungsrahmen und dem wahren Begrenzungsrahmen gemessen wird. Sie quantifiziert die Genauigkeit der Lokalisierung.
- Nicht-Maximum-Unterdrückung (NMS): Eine Nachbearbeitungstechnik, mit der redundante, sich überschneidende Boundingboxen für dasselbe Objekt eliminiert werden und nur die zuverlässigste Vorhersage erhalten bleibt.
- Mittlere durchschnittliche Präzision (mAP): Eine Standardkennzahl zur Bewertung der Leistung von Objekterkennungsmodellen, die sowohl die Klassifizierungsgenauigkeit als auch die Lokalisierungsgenauigkeit berücksichtigt (oft auf der Grundlage eines IoU-Schwellenwerts). Siehe detaillierte YOLO .
- Ankerkästen: Vordefinierte Boxen mit verschiedenen Größen und Seitenverhältnissen, die in einigen Detektoren (z. B. älteren YOLO ) verwendet werden, um die Bounding Boxes besser vorhersagen zu können. Neuere Modelle, einschließlich YOLO11sind oft ankerlos, was den Erkennungskopf vereinfacht.
- COCO-Datensatz: Ein umfangreicher Datensatz zur Objekterkennung, Segmentierung und Beschriftung, der häufig zum Benchmarking von Objekterkennungsmodellen verwendet wird. Ultralytics bietet einfachen Zugang zu COCO und anderen Erkennungsdatensätzen.
Bounding Boxes vs. verwandte Begriffe
Während die standardmäßigen (achsenausgerichteten) Bounding Boxes Objekte mit einfachen Rechtecken lokalisieren, bieten andere Computer-Vision-Techniken andere Detailstufen oder behandeln andere Szenarien:
- Bildsegmentierung: Jedem Pixel eines Bildes wird ein Klassenlabel zugewiesen. Im Gegensatz zu Bounding Boxes, die eine grobe Lokalisierung ermöglichen, bietet die Segmentierung eine feinkörnige Lokalisierung.
- Semantische Segmentierung: Ordnet jedes Pixel einer Kategorie zu (z. B. "Auto", "Straße", "Himmel"), unterscheidet aber nicht zwischen verschiedenen Instanzen der gleichen Objektklasse.
- Instanz Segmentierung: Geht einen Schritt weiter als die semantische Segmentierung, indem sie einzelne Objektinstanzen innerhalb jeder Kategorie auf Pixelebene identifiziert. Ultralytics YOLO unterstützen die Segmentierung von Instanzen.
- Oriented Bounding Boxes (OBB): Gedrehte Rechtecke, die verwendet werden, um Objekte, die nicht an den Bildachsen ausgerichtet sind, enger zu umschließen, wie z. B. bei Luftbildern(DOTA-Datensatz) oder der Texterkennung. Ultralytics YOLO11 unterstützt die OBB-Erkennung.
Anwendungen in realen Szenarien
Bounding Boxes sind ein wesentlicher Bestandteil zahlreicher praktischer KI-Anwendungen:
- Autonome Fahrzeuge: Selbstfahrende Autos verlassen sich stark auf die Objekterkennung, um Fußgänger, andere Fahrzeuge, Ampeln und Hindernisse mithilfe von Bounding Boxes zu erkennen und zu lokalisieren. Dieses räumliche Bewusstsein, das oft durch Deep-Learning-Modelle erreicht wird, ist entscheidend für eine sichere Navigation und Entscheidungsfindung. Unternehmen wie Waymo setzen diese Technologie ausgiebig ein. Ultralytics bietet Einblicke in die KI in selbstfahrenden Autos.
- Analytik im Einzelhandel: Im Einzelhandel helfen Bounding Boxes bei der KI-gesteuerten Bestandsverwaltung, indem sie Produkte in den Regalen erkennen, den Lagerbestand überwachen und das Kundenverhalten anhand von Regalinteraktionen oder Laufmustern analysieren(Objektzählung).
- Sicherheit und Überwachung: Bounding Boxes ermöglichen es automatischen Überwachungssystemen, Personen oder Objekte von Interesse in Echtzeit zu erkennen und zu verfolgen und bei unbefugtem Zutritt oder verdächtigen Aktivitäten Alarm auszulösen. Dies ist die Grundlage für Gebäudeanwendungen wie Sicherheitsalarmsysteme.
- Medizinische Bildanalyse: Im Gesundheitswesen unterstützen Bounding Boxes Radiologen und Kliniker, indem sie potenzielle Anomalien wie Tumore oder Läsionen in Scans (Röntgen, CT, MRT) hervorheben und so zu einer schnelleren und genaueren Diagnose beitragen. Siehe Beispiele in Radiologie: Künstliche Intelligenz und Ultralytics' Überblick über die medizinische Bildanalyse.
- Landwirtschaft: Bounding Boxes werden in der Präzisionslandwirtschaft für Aufgaben wie die Identifizierung von Früchten für die Ernte(Fruchterkennung), die Überwachung der Pflanzengesundheit oder die Erkennung von Schädlingen eingesetzt.