Glossar

Objekt-Erkennung

Entdecke die Kraft der Objekterkennung - identifiziere und lokalisiere Objekte in Bildern oder Videos mit modernsten Modellen wie YOLO. Erforsche Anwendungen aus der realen Welt!

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Die Objekterkennung ist eine grundlegende Aufgabe in der Computer Vision (CV), bei der es darum geht, das Vorhandensein, den Ort und die Art eines oder mehrerer Objekte in einem Bild oder Video zu erkennen. Anders als bei der Bildklassifizierung, bei der dem gesamten Bild ein einziges Label zugewiesen wird, wird bei der Objekterkennung jedes Objekt mithilfe eines Begrenzungsrahmens (Bounding Box) genau umrissen und mit einem Klassenlabel versehen. Diese Fähigkeit ermöglicht es Maschinen, visuelle Szenen mit größerer Granularität zu verstehen und spiegelt die menschliche visuelle Wahrnehmung besser wider.

Wie die Objekterkennung funktioniert

Bei der Objekterkennung werden in der Regel zwei Kernaufgaben miteinander kombiniert: die Objektklassifizierung (Feststellung, "welches" Objekt vorhanden ist) und die Objektlokalisierung (Feststellung, "wo" sich das Objekt befindet). Moderne Objekterkennungssysteme stützen sich stark auf Deep Learning (DL), insbesondere auf Convolutional Neural Networks (CNNs). Diese Netze werden auf großen Datensätzen trainiert, wie z. B. dem beliebten COCO-Datensatz, um Merkmale und Muster zu lernen, die mit verschiedenen Objektklassen verbunden sind. Das Modell verarbeitet ein Eingangsbild und gibt eine Liste von Bounding Boxes aus, die jeweils mit einer Klassenbezeichnung (z. B. "Auto", "Person") und einem Konfidenzwert versehen sind. Die Leistung dieser Modelle wird häufig anhand von Kennzahlen wie Intersection over Union (IoU) und mean Average Precision (mAP) gemessen.

Objekterkennung vs. verwandte Aufgaben

Es ist wichtig, die Objekterkennung von anderen verwandten Computer Vision Aufgaben zu unterscheiden:

  • Bildklassifizierung: Weist einem ganzen Bild ein einziges Label zu (z. B. "Dieses Bild enthält eine Katze"). Sie liefert keine Informationen über den Standort des Objekts/der Objekte.
  • Bildsegmentierung: Klassifiziert jedes Pixel eines Bildes. Die semantische Segmentierung weist jedem Pixel eine Klassenbezeichnung zu (z. B. werden alle Pixel, die zu Autos gehören, als "Auto" bezeichnet), während die Instanzensegmentierung zwischen verschiedenen Instanzen derselben Klasse unterscheidet (z. B. die Bezeichnung "Auto 1", "Auto 2"). Die Segmentierung liefert detailliertere räumliche Informationen als die Bounding Boxes der Objekterkennung.

Arten von Objekterkennungsmodellen

Modelle zur Objekterkennung lassen sich im Allgemeinen in zwei Kategorien einteilen:

  • Zweistufige Detektoren: Diese Modelle schlagen zunächst Regionen von Interesse (RoIs) vor, in denen sich Objekte befinden könnten, und klassifizieren dann die Objekte innerhalb dieser Regionen. Beispiele hierfür sind die R-CNN-Familie(Region-based CNN). Sie erreichen oft eine hohe Genauigkeit, können aber langsamer sein.
  • Einstufige Detektoren: Diese Modelle führen Lokalisierung und Klassifizierung in einem einzigen Durchgang direkt auf dem Bildgitter durch. Beispiele hierfür sind Ultralytics YOLO Modelle wie YOLOv8 und YOLOv11. Sie sind in der Regel schneller und eignen sich daher für Echtzeit-Inferenzen. Neuere Ansätze wie ankerfreie Detektoren vereinfachen den Erkennungsprozess weiter. Du kannst Vergleiche zwischen verschiedenen YOLO anstellen, um ihre Vorteile zu verstehen.

Anwendungen in der realen Welt

Die Objekterkennung ist für zahlreiche Anwendungen in verschiedenen Branchen entscheidend:

  • Autonome Systeme: Ermöglichung von Fahrzeugen für KI in selbstfahrenden Autos, um Fußgänger, andere Fahrzeuge, Verkehrszeichen und Hindernisse für eine sichere Navigation zu erkennen. Die Technologie von Waymo basiert auf einer ausgeklügelten Objekterkennung.
  • Bewachung und Sicherheit: Die Überwachung von Bereichen auf unbefugten Zutritt, die Erkennung verdächtiger Aktivitäten oder die Einführung automatischer Alarmsysteme.
  • Einzelhandelsanalyse: Verfolgung der Produkte in den Regalen für eine KI-gesteuerte Bestandsverwaltung, Analyse der Kundenfrequenz und Verbesserung der Kassiervorgänge.
  • Gesundheitswesen: Unterstützung bei der medizinischen Bildanalyse durch Identifizierung von Tumoren, Läsionen oder anderen Anomalien in Scans wie Röntgenaufnahmen oder MRTs. Die Forschung wird in Fachzeitschriften wie Radiology veröffentlicht : Artificial Intelligence veröffentlicht werden, enthalten oft solche Anwendungen.
  • Landwirtschaft: Überwachung der Pflanzengesundheit, Erkennung von Schädlingen und Automatisierung von Ernteprozessen mit Hilfe von KI-Lösungen in der Landwirtschaft.

Tools und Schulungen

Die Entwicklung von Objekterkennungsmodellen erfordert den Einsatz spezieller Tools und Plattformen. Frameworks wie PyTorch und TensorFlow liefern die Bausteine. Bibliotheken wie OpenCV bieten wichtige Computer Vision Funktionen. Ultralytics bietet modernste Ultralytics YOLO Modelle und die Ultralytics HUB-Plattform an, die das Training benutzerdefinierter Modelle, die Verwaltung von Datensätzen und die effiziente Bereitstellung von Lösungen vereinfachen. Ein effektives Modelltraining erfordert oft eine sorgfältige Abstimmung der Hyperparameter und Strategien zur Datenerweiterung.

Alles lesen