Glossar

Bounding Box

Erfahre, wie Bounding Boxes die Objekterkennung, KI und maschinelle Lernsysteme ermöglichen. Entdecke ihre Rolle in Computer Vision Anwendungen!

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Ein Begrenzungsrahmen (Bounding Box) ist ein rechteckiger Rahmen, der in der Computer Vision (CV) verwendet wird, um die Position und Ausdehnung eines Objekts innerhalb eines Bildes oder Videobildes anzugeben. Diese Boxen werden in der Regel durch die Koordinaten ihrer oberen linken und unteren rechten Ecke definiert und bieten eine einfache, aber effektive Möglichkeit, die Position eines Objekts und den von ihm beanspruchten Raum zu bestimmen. Bounding Boxes sind grundlegende Komponenten für verschiedene Lebenslaufaufgaben, wie z. B. Objekterkennung, Objektverfolgung und Bildbeschriftung, und bilden einen Eckpfeiler vieler moderner Systeme für künstliche Intelligenz (KI) und maschinelles Lernen (ML).

Bedeutung für die Objekterkennung

Bounding Boxes sind für das Training und die Auswertung von Objekterkennungsmodellen unerlässlich. Bei Aufgaben, die von Modellen wie Ultralytics YOLOdienen Bounding Boxes während des Trainings als Basiswahrheit, um dem Modell beizubringen, Objekte genau zu lokalisieren. Bei der Inferenz sagt das Modell die Bounding Boxen um die erkannten Objekte voraus. Diese Fähigkeit zur Lokalisierung ist entscheidend für Anwendungen, die nicht nur die Identifizierung von Objekten, sondern auch deren genaue Position erfordern, z. B. in autonomen Fahrzeugen oder Robotersystemen. Der Prozess beginnt oft mit einer sorgfältigen Datenbeschriftung, bei der Menschen oder automatisierte Tools Bounding Boxes um Objekte in Trainingsbildern zeichnen, oft mit Tools wie CVAT.

Wichtige Konzepte im Zusammenhang mit Bounding Boxes

Mehrere Metriken und Techniken sind eng mit der Verwendung und Bewertung von Bounding Boxes in ML-Modellen verbunden:

  • Intersection over Union (IoU): Eine Metrik, mit der die Überschneidung zwischen der vorhergesagten Bounding Box und der Ground Truth Bounding Box gemessen wird.
  • Non-Maximum Suppression (NMS): Eine Technik, mit der redundante Bounding Boxen, die dasselbe Objekt erkennen, eliminiert werden, wobei nur die Box mit dem höchsten Konfidenzwert erhalten bleibt.
  • Mittlere durchschnittliche Genauigkeit (mAP): Eine gängige Metrik zur Bewertung der Leistung von Objekterkennungsmodellen, die sich stark auf IoU-Berechnungen stützt.
  • Ankerboxen: Vordefinierte Boxen mit verschiedenen Größen und Seitenverhältnissen, die von einigen Detektoren verwendet werden, um Bounding Boxes besser vorhersagen zu können. Benchmark-Datensätze wie COCO werden oft verwendet, um Modelle zu bewerten, die auf diesen Konzepten basieren.

Bounding Boxes vs. verwandte Begriffe

Während Bounding Boxes Objekte mit Rechtecken lokalisieren, bieten andere Computer Vision Techniken andere Detailstufen:

  • Bildsegmentierung: Im Gegensatz zu Bounding Boxes, die eine rechteckige Lokalisierung ermöglichen, Bildsegmentierung zielt darauf ab, jedes Pixel in einem Bild zu klassifizieren.
    • Die semantische Segmentierung weist jedem Pixel ein Klassenlabel zu (z. B. Auto, Person, Straße), unterscheidet aber nicht zwischen verschiedenen Instanzen der gleichen Klasse.
    • Die Instanzsegmentierung geht noch weiter, indem sie jede einzelne Objektinstanz mit einer Maske auf Pixelebene identifiziert und umreißt, die mehr Details bietet als ein Begrenzungsrahmen. Du kannst mehr über die Aufgaben der Instanzsegmentierung erfahren.
  • Oriented Bounding Boxes (OBB): Standard Bounding Boxes sind achsenorientiert. Bei Objekten, die gedreht werden, sorgen Oriented Bounding Boxes (OBB) für eine engere Anpassung, indem sie die Box zusammen mit dem Objekt drehen. Dies ist besonders nützlich bei Anwendungen wie der Analyse von Luftbildern oder der Erkennung von Objekten in unübersichtlichen Szenen, die oft mit Datensätzen wie DOTA ausgewertet werden.

Anwendungen in realen Szenarien

Bounding Boxes sind ein wesentlicher Bestandteil zahlreicher praktischer KI-Anwendungen:

Autonome Fahrzeuge

Bei der Entwicklung von KI in selbstfahrenden Autos sind Bounding Boxes entscheidend für die Erkennung und Verfolgung von Fußgängern, Radfahrern, anderen Fahrzeugen und Straßenhindernissen. Die genaue Erkennung von Objekten mithilfe von Bounding Boxes in Echtzeit ermöglicht es dem Fahrzeugsystem, fundierte Entscheidungen für eine sichere Navigation und Kollisionsvermeidung zu treffen und die Sicherheitsrichtlinien von Organisationen wie der National Highway Traffic Safety Administration (NHTSA) einzuhalten. Erfahre mehr über die Rolle der KI in selbstfahrenden Autos.

Inventarverwaltung im Einzelhandel

Einzelhändler nutzen Objekterkennung mit Bounding Boxes, um automatisch Regale zu überwachen und den Bestand zu verwalten. Kameras, die mit KI-Modellen ausgestattet sind, können Produkte erkennen, Lagerbestände zählen, verstellte Artikel identifizieren und die Interaktion der Kunden mit den Waren verfolgen. Das verbessert die Effizienz, reduziert den manuellen Aufwand und liefert wertvolle Daten für die Optimierung des Ladenlayouts und die Auffüllung der Bestände. Einblicke in solche Trends in der Einzelhandelstechnologie verdeutlichen die wachsende Bedeutung von KI in der Branche. Du kannst verschiedene Ultralytics für unterschiedliche Branchen finden.

Alles lesen