Entdecke die Kraft der Objekterkennung - identifiziere und lokalisiere Objekte in Bildern oder Videos mit modernsten Modellen wie YOLO. Erforsche Anwendungen aus der realen Welt!
Die Objekterkennung ist eine grundlegende Aufgabe in der Computer Vision (CV), bei der es darum geht, das Vorhandensein, den Ort und die Art eines oder mehrerer Objekte in einem Bild oder Video zu erkennen. Anders als bei der Bildklassifizierung, bei der dem gesamten Bild ein einziges Label zugewiesen wird, wird bei der Objekterkennung jedes Objekt mithilfe eines Begrenzungsrahmens (Bounding Box) genau umrissen und mit einem Klassenlabel versehen. Diese Fähigkeit ermöglicht es Maschinen, visuelle Szenen mit größerer Granularität zu verstehen und spiegelt die menschliche visuelle Wahrnehmung besser wider.
Bei der Objekterkennung werden in der Regel zwei Kernaufgaben miteinander kombiniert: die Objektklassifizierung (Feststellung, "welches" Objekt vorhanden ist) und die Objektlokalisierung (Feststellung, "wo" sich das Objekt befindet). Moderne Objekterkennungssysteme stützen sich stark auf Deep Learning (DL), insbesondere auf Convolutional Neural Networks (CNNs). Diese Netze werden auf großen Datensätzen trainiert, wie z. B. dem beliebten COCO-Datensatz, um Merkmale und Muster zu lernen, die mit verschiedenen Objektklassen verbunden sind. Das Modell verarbeitet ein Eingangsbild und gibt eine Liste von Bounding Boxes aus, die jeweils mit einer Klassenbezeichnung (z. B. "Auto", "Person") und einem Konfidenzwert versehen sind. Die Leistung dieser Modelle wird häufig anhand von Kennzahlen wie Intersection over Union (IoU) und mean Average Precision (mAP) gemessen.
Es ist wichtig, die Objekterkennung von anderen verwandten Computer Vision Aufgaben zu unterscheiden:
Modelle zur Objekterkennung lassen sich im Allgemeinen in zwei Kategorien einteilen:
Die Objekterkennung ist für zahlreiche Anwendungen in verschiedenen Branchen entscheidend:
Die Entwicklung von Objekterkennungsmodellen erfordert den Einsatz spezieller Tools und Plattformen. Frameworks wie PyTorch und TensorFlow liefern die Bausteine. Bibliotheken wie OpenCV bieten wichtige Computer Vision Funktionen. Ultralytics bietet modernste Ultralytics YOLO Modelle und die Ultralytics HUB-Plattform an, die das Training benutzerdefinierter Modelle, die Verwaltung von Datensätzen und die effiziente Bereitstellung von Lösungen vereinfachen. Ein effektives Modelltraining erfordert oft eine sorgfältige Abstimmung der Hyperparameter und Strategien zur Datenerweiterung.