Entdecke die Kraft der Objekterkennung - identifiziere und lokalisiere Objekte in Bildern oder Videos mit modernsten Modellen wie YOLO. Erforsche Anwendungen aus der realen Welt!
Die Objekterkennung ist eine grundlegende Aufgabe der Computer Vision (CV), bei der es darum geht, das Vorhandensein, die Position und die Art eines oder mehrerer Objekte in einem Bild oder Video zu identifizieren. Anders als bei der Bildklassifizierung, bei der dem gesamten Bild ein einziges Label zugewiesen wird (z. B. "Katze"), wird bei der Objekterkennung jedes Objekt mithilfe eines Begrenzungsrahmens genau umrissen und ihm ein Klassenlabel zugewiesen (z. B. "Katze" mit den Koordinaten x, y, Breite, Höhe). Diese Fähigkeit ermöglicht es Maschinen, visuelle Szenen mit größerer Granularität zu verstehen, die menschliche visuelle Wahrnehmung besser nachzuahmen und komplexere Interaktionen mit der Umgebung zu ermöglichen. Sie ist eine Kerntechnologie, die hinter vielen modernen Anwendungen der künstlichen Intelligenz (KI) steht.
Bei der Objekterkennung werden in der Regel zwei Kernaufgaben miteinander kombiniert: die Objektklassifizierung (Feststellung, "welches" Objekt vorhanden ist) und die Objektlokalisierung (Feststellung, "wo" sich das Objekt befindet, in der Regel über Bounding-Box-Koordinaten). Moderne Objekterkennungssysteme stützen sich stark auf Deep Learning (DL), insbesondere auf Convolutional Neural Networks (CNNs). Diese Netze werden auf großen, kommentierten Datensätzen trainiert, wie z. B. dem beliebten COCO-Datensatz oder Open Images V7, um visuelle Merkmale und Muster zu lernen, die mit verschiedenen Objektklassen verbunden sind.
Während des Betriebs (auch Inferenz genannt) verarbeitet das trainierte Modell ein Eingangsbild oder Videobild. Es gibt eine Liste potenzieller Objekte aus, die jeweils durch ein Begrenzungsrechteck (Bounding Box) dargestellt werden, eine vorhergesagte Klassenbezeichnung (z. B. "Auto", "Person", "Hund") und einen Konfidenzwert, der angibt, wie sicher das Modell bei der Erkennung ist. Techniken wie die Non-Maximum Suppression (NMS) werden häufig eingesetzt, um diese Ergebnisse zu verfeinern, indem redundante, sich überschneidende Boxen für dasselbe Objekt entfernt werden. Die Leistung dieser Modelle wird in der Regel anhand von Metriken wie Intersection over Union (IoU) und mean Average Precision (mAP) bewertet.
Es ist wichtig, die Objekterkennung von anderen verwandten Computer Vision Aufgaben zu unterscheiden:
Modelle zur Objekterkennung lassen sich im Allgemeinen in zwei Hauptkategorien einteilen, die sich in erster Linie durch ihren Ansatz und den Kompromiss zwischen Geschwindigkeit und Genauigkeit unterscheiden:
Die Objekterkennung ist eine Grundlagentechnologie für zahlreiche Anwendungen in verschiedenen Branchen:
Für die Entwicklung und den Einsatz von Objekterkennungsmodellen sind verschiedene Tools und Techniken erforderlich. Beliebte Deep Learning-Frameworks wie PyTorch und TensorFlow liefern die grundlegenden Bibliotheken. Computer-Vision-Bibliotheken wie OpenCV bieten wichtige Bildverarbeitungsfunktionen.
Ultralytics bietet modernste Ultralytics YOLO Modelle, einschließlich YOLOv8 und YOLO11die für Geschwindigkeit und Genauigkeit optimiert sind. Die Ultralytics HUB-Plattform vereinfacht den Arbeitsablauf noch weiter und bietet Tools für die Verwaltung von Datensätzen, das Training von benutzerdefinierten Modellen, die Abstimmung von Hyperparametern und den Einsatz von Modellen. Effektives Modelltraining profitiert oft von Strategien zur Datenerweiterung und Techniken wie dem Transfer-Lernen, bei dem bereits trainierte Gewichte aus Datensätzen wie ImageNet verwendet werden.