Glossar

Objekt-Erkennung

Entdecke die Kraft der Objekterkennung - identifiziere und lokalisiere Objekte in Bildern oder Videos mit modernsten Modellen wie YOLO. Erforsche Anwendungen aus der realen Welt!

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Die Objekterkennung ist eine grundlegende Aufgabe der Computer Vision (CV), bei der es darum geht, das Vorhandensein, die Position und die Art eines oder mehrerer Objekte in einem Bild oder Video zu identifizieren. Anders als bei der Bildklassifizierung, bei der dem gesamten Bild ein einziges Label zugewiesen wird (z. B. "Katze"), wird bei der Objekterkennung jedes Objekt mithilfe eines Begrenzungsrahmens genau umrissen und ihm ein Klassenlabel zugewiesen (z. B. "Katze" mit den Koordinaten x, y, Breite, Höhe). Diese Fähigkeit ermöglicht es Maschinen, visuelle Szenen mit größerer Granularität zu verstehen, die menschliche visuelle Wahrnehmung besser nachzuahmen und komplexere Interaktionen mit der Umgebung zu ermöglichen. Sie ist eine Kerntechnologie, die hinter vielen modernen Anwendungen der künstlichen Intelligenz (KI) steht.

Wie die Objekterkennung funktioniert

Bei der Objekterkennung werden in der Regel zwei Kernaufgaben miteinander kombiniert: die Objektklassifizierung (Feststellung, "welches" Objekt vorhanden ist) und die Objektlokalisierung (Feststellung, "wo" sich das Objekt befindet, in der Regel über Bounding-Box-Koordinaten). Moderne Objekterkennungssysteme stützen sich stark auf Deep Learning (DL), insbesondere auf Convolutional Neural Networks (CNNs). Diese Netze werden auf großen, kommentierten Datensätzen trainiert, wie z. B. dem beliebten COCO-Datensatz oder Open Images V7, um visuelle Merkmale und Muster zu lernen, die mit verschiedenen Objektklassen verbunden sind.

Während des Betriebs (auch Inferenz genannt) verarbeitet das trainierte Modell ein Eingangsbild oder Videobild. Es gibt eine Liste potenzieller Objekte aus, die jeweils durch ein Begrenzungsrechteck (Bounding Box) dargestellt werden, eine vorhergesagte Klassenbezeichnung (z. B. "Auto", "Person", "Hund") und einen Konfidenzwert, der angibt, wie sicher das Modell bei der Erkennung ist. Techniken wie die Non-Maximum Suppression (NMS) werden häufig eingesetzt, um diese Ergebnisse zu verfeinern, indem redundante, sich überschneidende Boxen für dasselbe Objekt entfernt werden. Die Leistung dieser Modelle wird in der Regel anhand von Metriken wie Intersection over Union (IoU) und mean Average Precision (mAP) bewertet.

Objekterkennung vs. verwandte Aufgaben

Es ist wichtig, die Objekterkennung von anderen verwandten Computer Vision Aufgaben zu unterscheiden:

  • Bild Klassifizierung: Weist einem ganzen Bild ein einziges Etikett zu (z. B. "Dieses Bild enthält einen Hund"). Es lokalisiert nicht das/die Objekt(e).
  • Bildsegmentierung: Klassifiziert jedes Pixel in einem Bild und erstellt eine detaillierte Karte der Objektgrenzen. Das ist detaillierter als die Bounding Boxes der Objekterkennung.
    • Semantische Segmentierung: Jedem Pixel wird eine Klassenbezeichnung zugewiesen (z. B. werden alle Pixel, die zu "Autos" gehören, als "Auto" bezeichnet). Es wird nicht zwischen verschiedenen Instanzen der gleichen Klasse unterschieden.
    • Instanz Segmentierung: Ordnet jedem Pixel eine Klassenbezeichnung zu und unterscheidet zwischen einzelnen Instanzen derselben Klasse (z. B. "Auto 1", "Auto 2"). Sie kombiniert Erkennung und Segmentierung.
  • Objektverfolgung: Dabei werden Objekte in aufeinanderfolgenden Videobildern erkannt und jedem Objekt eine eindeutige ID zugewiesen, um seine Bewegung über die Zeit zu verfolgen. Dies baut auf der Objekterkennung auf.

Arten von Objekterkennungsmodellen

Modelle zur Objekterkennung lassen sich im Allgemeinen in zwei Hauptkategorien einteilen, die sich in erster Linie durch ihren Ansatz und den Kompromiss zwischen Geschwindigkeit und Genauigkeit unterscheiden:

  • Zweistufige Objektdetektoren: Diese Modelle schlagen zunächst Regionen von Interesse (RoIs) vor, in denen sich Objekte befinden könnten, und klassifizieren dann die Objekte innerhalb dieser Regionen. Beispiele sind die R-CNN-Familie (Fast R-CNN, Faster R-CNN). Sie erreichen oft eine hohe Genauigkeit, sind aber tendenziell langsamer.
  • Einstufige Objektdetektoren: Diese Modelle sagen Bounding Boxes und Klassenwahrscheinlichkeiten direkt aus dem Eingangsbild in einem einzigen Durchgang voraus, ohne dass ein separater Schritt zum Vorschlagen von Regionen erforderlich ist. Beispiele hierfür sind die Ultralytics YOLO (You Only Look Once), SSD (Single Shot MultiBox Detector) und RetinaNet. Sie sind in der Regel schneller und eignen sich daher für die Inferenz in Echtzeit, allerdings manchmal um den Preis einer etwas geringeren Genauigkeit im Vergleich zu zweistufigen Methoden, obwohl Modelle wie YOLO11 überbrücken diese Lücke effektiv. Neuere Ansätze wie ankerfreie Detektoren vereinfachen den einstufigen Prozess weiter. Du kannst Vergleiche zwischen verschiedenen YOLO und anderen Architekturen wie RT-DETR.

Anwendungen in der realen Welt

Die Objekterkennung ist eine Grundlagentechnologie für zahlreiche Anwendungen in verschiedenen Branchen:

  1. Autonome Systeme: Unverzichtbar für selbstfahrende Autos und Robotik. Sie ermöglichen es Fahrzeugen und Robotern, ihre Umgebung wahrzunehmen, indem sie Fußgänger, andere Fahrzeuge, Hindernisse, Verkehrsschilder und bestimmte Gegenstände zur Interaktion erkennen. Unternehmen wie Tesla und Waymo verlassen sich stark auf eine zuverlässige Objekterkennung.
  2. Sicherheit und Bewachung: In Sicherheitsalarmsystemen werden sie eingesetzt, um Eindringlinge zu erkennen, Menschenmengen zu überwachen(Vision AI in Crowd Management), verlassene Objekte zu identifizieren und die Überwachungseffizienz auf öffentlichen Plätzen und Privatgrundstücken zu verbessern.
  3. Einzelhandelsanalysen: Ermöglicht Anwendungen wie automatisierte Kassensysteme, KI-gesteuerte Bestandsverwaltung, Regalüberwachung (Erkennung von nicht vorrätigen Artikeln) und die Analyse von Kundenströmen.
  4. Gesundheitswesen: Anwendung in der medizinischen Bildanalyse, um Anomalien wie Tumore(Using YOLO11 for Tumor Detection) oder Läsionen in Röntgenbildern, CT-Scans und MRTs zu erkennen und Radiologen bei der Diagnose zu unterstützen(Radiology: Artificial Intelligence).
  5. Landwirtschaft: Ermöglicht Präzisionslandwirtschaftstechniken wie das Erkennen von Schädlingen, Krankheiten und Unkraut, das Zählen von Früchten(Computer Vision in der Landwirtschaft) und die Überwachung der Gesundheit von Pflanzen(KI in der Landwirtschaft).
  6. Fertigung: Sie werden zur Qualitätskontrolle eingesetzt, indem sie Fehler in den Produkten auf den Fließbändern erkennen(Qualitätsprüfung in der Fertigung), die Sicherheit durch die Überwachung von Gefahrenbereichen gewährleisten und Roboteraufgaben automatisieren.

Tools und Schulungen

Für die Entwicklung und den Einsatz von Objekterkennungsmodellen sind verschiedene Tools und Techniken erforderlich. Beliebte Deep Learning-Frameworks wie PyTorch und TensorFlow liefern die grundlegenden Bibliotheken. Computer-Vision-Bibliotheken wie OpenCV bieten wichtige Bildverarbeitungsfunktionen.

Ultralytics bietet modernste Ultralytics YOLO Modelle, einschließlich YOLOv8 und YOLO11die für Geschwindigkeit und Genauigkeit optimiert sind. Die Ultralytics HUB-Plattform vereinfacht den Arbeitsablauf noch weiter und bietet Tools für die Verwaltung von Datensätzen, das Training von benutzerdefinierten Modellen, die Abstimmung von Hyperparametern und den Einsatz von Modellen. Effektives Modelltraining profitiert oft von Strategien zur Datenerweiterung und Techniken wie dem Transfer-Lernen, bei dem bereits trainierte Gewichte aus Datensätzen wie ImageNet verwendet werden.

Alles lesen