Wirf mit uns einen Blick zurück auf die Entwicklung der Objekterkennung. Wir werden uns darauf konzentrieren, wie sich die YOLO (You Only Look Once) Modelle in den letzten Jahren weiterentwickelt haben.
Computer Vision ist ein Teilbereich der künstlichen Intelligenz (KI), der sich darauf konzentriert, Maschinen beizubringen, Bilder und Videos zu sehen und zu verstehen, ähnlich wie Menschen die reale Welt wahrnehmen. Während das Erkennen von Objekten oder das Identifizieren von Handlungen für Menschen selbstverständlich ist, erfordern diese Aufgaben für Maschinen besondere und spezialisierte Computer Vision Techniken. Eine wichtige Aufgabe beim Computer Vision ist zum Beispiel die Objekterkennung, bei der es darum geht, Objekte in Bildern oder Videos zu identifizieren und zu lokalisieren.
Seit den 1960er Jahren arbeiten Forscher/innen daran, die Erkennung von Objekten durch Computer zu verbessern. Bei frühen Methoden wie dem Template Matching wurde eine vordefinierte Vorlage über ein Bild gezogen, um Übereinstimmungen zu finden. Diese Methoden waren zwar innovativ, hatten aber mit Veränderungen der Objektgröße, der Ausrichtung und der Beleuchtung zu kämpfen. Heute haben wir fortschrittliche Modelle wie Ultralytics YOLO11 die selbst kleine und teilweise verdeckte Objekte, so genannte verdeckte Objekte, mit beeindruckender Genauigkeit erkennen können.
Da sich die Computer Vision ständig weiterentwickelt, ist es wichtig, einen Blick auf die Entwicklung dieser Technologien zu werfen. In diesem Artikel erkunden wir die Entwicklung der Objekterkennung und beleuchten die Entwicklung der YOLO (You Only Look Once) Modelle. Los geht's!
Bevor wir uns mit der Objekterkennung beschäftigen, wollen wir einen Blick darauf werfen, wie die Computer Vision entstanden ist. Die Ursprünge des Computersehens gehen auf die späten 1950er und frühen 1960er Jahre zurück, als Wissenschaftler/innen begannen zu erforschen, wie das Gehirn visuelle Informationen verarbeitet. In Experimenten mit Katzen entdeckten die Forscher David Hubel und Torsten Wiesel, dass das Gehirn auf einfache Muster wie Kanten und Linien reagiert. Dies bildete die Grundlage für die Idee der Merkmalsextraktion - das Konzept, dass visuelle Systeme grundlegende Merkmale in Bildern, wie z. B. Kanten, erkennen und erkennen, bevor sie zu komplexeren Mustern übergehen.
Etwa zur gleichen Zeit kamen neue Technologien auf, mit denen physische Bilder in digitale Formate umgewandelt werden konnten, was das Interesse daran weckte, wie Maschinen visuelle Informationen verarbeiten können. 1966 ging das Summer Vision Project des Massachusetts Institute of Technology (MIT) noch einen Schritt weiter. Das Projekt war zwar nicht ganz erfolgreich, aber es zielte darauf ab, ein System zu entwickeln, das in Bildern den Vordergrund vom Hintergrund trennen konnte. Für viele in der KI-Gemeinschaft markiert dieses Projekt den offiziellen Beginn der Computer Vision als Wissenschaftsgebiet.
Als sich die Computer Vision in den späten 1990er und frühen 2000er Jahren weiterentwickelte, verlagerten sich die Methoden der Objekterkennung von grundlegenden Techniken wie dem Template Matching zu fortschrittlicheren Ansätzen. Eine beliebte Methode war die Haar-Kaskade, die für Aufgaben wie die Gesichtserkennung eingesetzt wurde. Bei dieser Methode werden Bilder mit einem gleitenden Fenster gescannt, auf bestimmte Merkmale wie Kanten oder Texturen in jedem Bildabschnitt geprüft und diese Merkmale dann kombiniert, um Objekte wie Gesichter zu erkennen. Haar Cascade war viel schneller als frühere Methoden.
Daneben wurden auch Methoden wie Histogram of Oriented Gradients (HOG) und Support Vector Machines (SVMs) eingeführt. HOG nutzte die Schiebefenstertechnik, um zu analysieren, wie sich Licht und Schatten in kleinen Bildausschnitten verändern, und half dabei, Objekte anhand ihrer Form zu identifizieren. SVMs klassifizierten dann diese Merkmale, um die Identität des Objekts zu bestimmen. Diese Methoden verbesserten die Genauigkeit, hatten aber in realen Umgebungen immer noch Probleme und waren im Vergleich zu den heutigen Verfahren langsamer.
In den 2010er Jahren brachte der Aufstieg des Deep Learning und der Convolutional Neural Networks (CNNs) einen großen Wandel in der Objekterkennung. CNNs ermöglichten es Computern, automatisch wichtige Merkmale aus großen Datenmengen zu lernen, wodurch die Erkennung viel genauer wurde.
Frühe Modelle wie R-CNN (Region-based Convolutional Neural Networks) waren eine große Verbesserung der Präzision und halfen, Objekte genauer zu identifizieren als ältere Methoden.
Diese Modelle waren jedoch langsam, weil sie Bilder in mehreren Schritten verarbeiteten, was sie für Echtzeitanwendungen in Bereichen wie selbstfahrende Autos oder Videoüberwachung unpraktisch machte.
Mit dem Ziel, die Dinge zu beschleunigen, wurden effizientere Modelle entwickelt. Modelle wie Fast R-CNN und Faster R-CNN halfen dabei, indem sie die Auswahl der interessierenden Regionen verfeinerten und die Anzahl der für die Erkennung erforderlichen Schritte reduzierten. Dadurch wurde die Objekterkennung zwar schneller, aber für viele reale Anwendungen, die sofortige Ergebnisse benötigen, war sie immer noch nicht schnell genug. Die wachsende Nachfrage nach Echtzeit-Erkennung trieb die Entwicklung von noch schnelleren und effizienteren Lösungen voran, die sowohl Geschwindigkeit als auch Genauigkeit unter einen Hut bringen können.
YOLO ist ein Objekterkennungsmodell, das die Computer Vision neu definiert, indem es die Erkennung mehrerer Objekte in Bildern und Videos in Echtzeit ermöglicht und sich damit von bisherigen Erkennungsmethoden unterscheidet. Anstatt jedes erkannte Objekt einzeln zu analysieren, behandelt die Architektur vonYOLO die Objekterkennung als eine einzige Aufgabe und sagt mit Hilfe von CNNs sowohl den Ort als auch die Klasse der Objekte in einem Durchgang voraus.
Das Modell unterteilt ein Bild in ein Raster, wobei jeder Teil für die Erkennung von Objekten in seinem jeweiligen Bereich zuständig ist. Es macht mehrere Vorhersagen für jeden Bereich und filtert die weniger zuverlässigen Ergebnisse heraus, um nur die richtigen zu behalten.
Mit der Einführung von YOLO in Computer-Vision-Anwendungen wurde die Objekterkennung viel schneller und effizienter als bei früheren Modellen. Aufgrund seiner Geschwindigkeit und Genauigkeit wurde YOLO schnell zu einer beliebten Wahl für Echtzeitlösungen in Branchen wie der Fertigung, dem Gesundheitswesen und der Robotik.
Ein weiterer wichtiger Punkt ist, dass YOLO als Open-Source-Projekt von Entwicklern und Forschern kontinuierlich verbessert werden konnte, was zu noch fortschrittlicheren Versionen führte.
YOLO Modelle haben sich im Laufe der Zeit stetig verbessert und bauen auf den Fortschritten der einzelnen Versionen auf. Neben der besseren Leistung haben diese Verbesserungen auch dazu geführt, dass die Modelle für Menschen mit unterschiedlichen technischen Vorkenntnissen einfacher zu bedienen sind.
Zum Beispiel, als Ultralytics YOLOv5 eingeführt wurde, wurde der Einsatz von Modellen einfacher mit PyTorchund ermöglichte es einer größeren Anzahl von Nutzern, mit fortschrittlicher KI zu arbeiten. Sie vereinte Genauigkeit und Benutzerfreundlichkeit und gab mehr Menschen die Möglichkeit, die Objekterkennung zu implementieren, ohne dass sie Programmierexperten sein mussten.
Ultralytics YOLOv8 wurde dieser Fortschritt fortgesetzt, indem Aufgaben wie die Segmentierung von Instanzen unterstützt und die Modelle flexibler gestaltet wurden. Es wurde einfacher, YOLO sowohl für einfache als auch für komplexere Anwendungen zu nutzen, was es für eine Reihe von Szenarien nützlich macht.
Mit dem neuesten Modell, Ultralytics YOLO11wurden weitere Optimierungen vorgenommen. Durch die Verringerung der Anzahl der Parameter bei gleichzeitiger Verbesserung der Genauigkeit ist es jetzt effizienter für Echtzeitaufgaben. Egal, ob du ein erfahrener Entwickler oder ein Neuling in der KI bist, YOLO11 bietet einen fortschrittlichen Ansatz zur Objekterkennung, der leicht zugänglich ist.
YOLO11Das neue Modell, das auf der jährlichen Hybrid-Veranstaltung YOLO Vision 2024 (YV24) von Ultralyticsvorgestellt wurde, unterstützt dieselben Computer-Vision-Aufgaben wie YOLOv8, wie z. B. Objekterkennung, Instanzsegmentierung, Bildklassifizierung und Posenschätzung. Die Nutzer/innen können also einfach zu diesem neuen Modell wechseln, ohne ihre Arbeitsabläufe anpassen zu müssen. Außerdem macht die verbesserte Architektur von YOLO11die Vorhersagen noch präziser. Tatsächlich erreicht YOLO11m im COCO-Datensatz eine höhere durchschnittliche Genauigkeit (mAP) mit 22 % weniger Parametern als YOLOv8m.
YOLO11 ist außerdem so konzipiert, dass es auf einer Reihe von Plattformen effizient läuft, von Smartphones und anderen Endgeräten bis hin zu leistungsstärkeren Cloud-Systemen. Diese Flexibilität sorgt für eine reibungslose Leistung auf verschiedenen Hardwarekonfigurationen für Echtzeitanwendungen. Darüber hinaus ist YOLO11 schneller und effizienter, wodurch die Rechenkosten gesenkt und die Inferenzzeiten verkürzt werden. Egal, ob du das PaketUltralytics Python oder den codefreien Ultralytics HUB verwendest, er lässt sich leicht in deine YOLO11 in deine bestehenden Arbeitsabläufe zu integrieren.
Die Auswirkungen der fortschrittlichen Objekterkennung auf Echtzeitanwendungen und KI sind bereits in allen Branchen zu spüren. Da Branchen wie die Öl- und Gasindustrie, das Gesundheitswesen und der Einzelhandel zunehmend auf KI setzen, steigt die Nachfrage nach schneller und präziser Objekterkennung weiter an. YOLO11 will diese Nachfrage befriedigen, indem es eine leistungsstarke Erkennung auch auf Geräten mit begrenzter Rechenleistung ermöglicht.
Mit der zunehmenden Verbreitung von KI werden Objekterkennungsmodelle wie YOLO11 für Echtzeit-Entscheidungen in Umgebungen, in denen es auf Geschwindigkeit und Genauigkeit ankommt, wahrscheinlich noch wichtiger werden. Mit kontinuierlichen Verbesserungen im Design und in der Anpassungsfähigkeit wird die Zukunft der Objekterkennung wahrscheinlich noch mehr Innovationen für eine Vielzahl von Anwendungen bringen.
Die Objekterkennung hat einen langen Weg zurückgelegt und sich von einfachen Methoden zu den fortschrittlichen Deep-Learning-Techniken entwickelt, die wir heute kennen. YOLO Modelle waren das Herzstück dieses Fortschritts und haben in verschiedenen Branchen für eine schnellere und genauere Erkennung in Echtzeit gesorgt. YOLO11 baut auf diesem Erbe auf, verbessert die Effizienz, senkt die Rechenkosten und erhöht die Genauigkeit, was sie zu einer zuverlässigen Wahl für eine Vielzahl von Echtzeitanwendungen macht. Angesichts der kontinuierlichen Fortschritte in den Bereichen KI und Computer Vision sieht die Zukunft der Objekterkennung rosig aus und bietet Raum für noch mehr Verbesserungen in Bezug auf Geschwindigkeit, Präzision und Anpassungsfähigkeit.
Neugierig auf KI? Bleib mit unserer Community in Verbindung, um weiter zu lernen! In unserem GitHub-Repository erfährst du, wie wir KI einsetzen, um innovative Lösungen für Branchen wie die Fertigung und das Gesundheitswesen zu entwickeln. 🚀
Beginne deine Reise in die Zukunft des maschinellen Lernens