Grüner Scheck
Link in die Zwischenablage kopiert

Ultralytics YOLO11 im Vergleich zu früheren YOLO

Vergleiche Ultralytics YOLOv8, YOLOv9, YOLOv10 und Ultralytics YOLO11 , um zu verstehen, wie sich diese Modelle von 2023 bis 2025 entwickelt und verbessert haben.

Von der Automatisierung alltäglicher Aufgaben bis hin zur Unterstützung bei der Entscheidungsfindung in Echtzeit - künstliche Intelligenz (KI) gestaltet die Zukunft verschiedener Branchen neu. Ein besonders faszinierender Bereich der KI ist die Computer Vision, auch bekannt als Vision AI. Dabei geht es darum, Maschinen in die Lage zu versetzen, visuelle Daten wie Menschen zu analysieren und zu interpretieren. 

Computer Vision Modelle treiben Innovationen voran, die sowohl die Sicherheit als auch die Effizienz verbessern. Diese Modelle werden zum Beispiel in selbstfahrenden Autos zur Erkennung von Fußgängern und in Sicherheitskameras zur Überwachung von Gebäuden rund um die Uhr eingesetzt. 

Einige der bekanntesten Computer-Vision-Modelle sind die YOLO (You Only Look Once), die für ihre Fähigkeit zur Objekterkennung in Echtzeit bekannt sind. Im Laufe der Zeit haben sich die YOLO verbessert und jede neue Version bietet eine bessere Leistung und mehr Flexibilität.

Neuere Versionen wie Ultralytics YOLO11 können eine Vielzahl von Aufgaben wie Instanzsegmentierung, Bildklassifizierung, Posenschätzung und Multi-Objekt-Tracking mit höherer Genauigkeit, Geschwindigkeit und Präzision als je zuvor bewältigen.

In diesem Artikel werden wir vergleichen Ultralytics YOLOv8YOLOv9, YOLOv10 und Ultralytics YOLO11 , um eine bessere Vorstellung davon zu bekommen, wie sich diese Modelle entwickelt haben. Wir werden ihre wichtigsten Funktionen, Benchmark-Ergebnisse und Leistungsunterschiede analysieren. Los geht's!

Ein Überblick über Ultralytics YOLOv8

YOLOv8, das von Ultralytics am 10. Januar 2023 veröffentlicht wurde, war ein großer Schritt nach vorn im Vergleich zu früheren YOLO . Es ist für eine genaue Erkennung in Echtzeit optimiert und kombiniert bewährte Ansätze mit innovativen Updates für bessere Ergebnisse.

Neben der Objekterkennung unterstützt YOLOv8 auch die folgenden Bildverarbeitungsaufgaben: Instanzsegmentierung, Posenschätzung, OBB-Objekterkennung (Oriented Bounding Boxes) und Bildklassifizierung. Ein weiteres wichtiges Merkmal von YOLOv8 ist, dass es in fünf verschiedenen Modellvarianten erhältlich ist - Nano, Small, Medium, Large und X - so dass du je nach deinen Bedürfnissen die richtige Mischung aus Geschwindigkeit und Genauigkeit wählen kannst.

Dank seiner Vielseitigkeit und starken Leistung kann YOLOv8 in vielen realen Anwendungen eingesetzt werden, z. B. in Sicherheitssystemen, Smart Cities, im Gesundheitswesen und in der industriellen Automatisierung.

Abb. 1. Parkraummanagement in Smart Cities mit YOLOv8.

Die wichtigsten Merkmale von YOLOv8

Hier ist ein genauerer Blick auf einige der anderen wichtigen Funktionen von YOLOv8:

  • Verbesserte Erkennungsarchitektur: YOLOv8 verwendet ein verbessertes CSPDarknet-Backbone. Dieser Backbone ist für die Merkmalsextraktion optimiert - den Prozess der Identifizierung und Erfassung wichtiger Muster oder Details aus den eingegebenen Bildern, die dem Modell helfen, genaue Vorhersagen zu treffen.

  • Erkennungskopf: Er verwendet ein ankerfreies, entkoppeltes Design, d.h. er verlässt sich nicht auf vorgegebene Bounding Box Formen (Anker) und lernt stattdessen, die Objektpositionen direkt vorherzusagen. Durch die Entkopplung werden die Aufgaben der Klassifizierung des Objekts und der Vorhersage, wo es sich befindet (Regression), getrennt durchgeführt, was die Genauigkeit erhöht und das Training beschleunigt.

  • Ausgewogene Genauigkeit und Geschwindigkeit: Dieses Modell erreicht eine beeindruckende Genauigkeit und ist gleichzeitig sehr schnell, so dass es sich sowohl für Cloud- als auch für Edge-Umgebungen eignet.

  • Benutzerfreundlich: YOLOv8 ist so konzipiert, dass du leicht damit anfangen kannst - mit dem Ultralytics Python kannst du in wenigen Minuten mit der Vorhersage beginnen und Ergebnisse sehen.

YOLOv9 konzentriert sich auf die Effizienz der Berechnungen

YOLOv9 wurde am 21. Februar 2024 von Chien-Yao Wang und Hong-Yuan Mark Liao vom Institute of Information Science, Academia Sinica, Taiwan veröffentlicht. Es unterstützt Aufgaben wie Objekterkennung und Instanzsegmentierung

Dieses Modell stützt sich auf Ultralytics YOLOv5 auf und führt zwei wichtige Neuerungen ein: Programmable Gradient Information (PGI) und Generalized Efficient Layer Aggregation Network (GELAN). 

PGI hilft YOLOv9 dabei, wichtige Informationen zu behalten, während es Daten durch seine Schichten verarbeitet, was zu genaueren Ergebnissen führt. Gleichzeitig verbessert GELAN die Art und Weise, wie das Modell seine Schichten nutzt, und steigert so die Leistung und die Effizienz der Berechnungen. Dank dieser Upgrades kann YOLOv9 Echtzeitaufgaben auf Edge-Geräten und mobilen Apps bewältigen, wo die Rechenressourcen oft begrenzt sind.

Abb. 2. Verstehen, wie GELAN die Genauigkeit von YOLOv9 verbessert.

Hauptmerkmale von YOLOv9

Hier ist ein kleiner Einblick in einige der anderen wichtigen Funktionen von YOLOv8:

  • Hohe Präzision mit Effizienz: YOLOv9 bietet eine hohe Erkennungsgenauigkeit, ohne viel Rechenleistung zu verbrauchen, und ist damit eine gute Wahl, wenn die Ressourcen begrenzt sind.
  • Leichte Modelle: Die leichtgewichtigen Modellvarianten von YOLOv9 sind für Edge- und mobile Einsätze optimiert.
  • Einfach zu benutzen: YOLOv9 wird vom Ultralytics Python unterstützt, sodass es einfach einzurichten und in verschiedenen Umgebungen auszuführen ist, egal ob du Code oder die Kommandozeile verwendest.

YOLOv10 ermöglicht NMS-freie Objekterkennung

YOLOv10 wurde am 23. Mai 2024 von Forschern der Tsinghua Universität vorgestellt und konzentriert sich auf die Objekterkennung in Echtzeit. Sie behebt die Einschränkungen früherer YOLO , indem sie die Non-Maximum-Suppression (NMS), einen Nachbearbeitungsschritt zur Eliminierung doppelter Erkennungen, überflüssig macht und das Modelldesign insgesamt verfeinert. Das Ergebnis ist eine schnellere und effizientere Objekterkennung, die immer noch auf dem neuesten Stand der Technik ist.

Ein wesentlicher Teil dessen, was dies möglich macht, ist ein Trainingsansatz, der als konsistente Dual-Label-Zuweisungen bekannt ist. Er kombiniert zwei Strategien: eine, die es erlaubt, mehrere Vorhersagen von demselben Objekt zu lernen (one-to-many), und eine andere, die sich auf die Auswahl der besten Einzelvorhersage konzentriert (one-to-one). Da beide Strategien denselben Zuordnungsregeln folgen, lernt das Modell von selbst, Duplikate zu vermeiden, sodass kein NMS erforderlich ist.

Abb. 3. YOLOv10 verwendet konsistente Dual-Label-Zuweisungen für NMS-freies Training.

Die Architektur von YOLOv10 verwendet außerdem ein verbessertes CSPNet-Backbone, um Merkmale effektiver zu erlernen, und einen PAN (Path Aggregation Network)-Hals, der Informationen aus verschiedenen Schichten kombiniert, wodurch kleine und große Objekte besser erkannt werden können. Diese Verbesserungen machen es möglich, YOLOv10 für reale Anwendungen in der Produktion, im Einzelhandel und beim autonomen Fahren einzusetzen.

Die wichtigsten Merkmale von YOLOv10

Hier sind einige der anderen herausragenden Eigenschaften von YOLOv10:

  • Large-Kernel-Faltungen: Das Modell verwendet Large-Kernel-Faltungen, um mehr Kontext aus größeren Bereichen des Bildes zu erfassen und so die gesamte Szene besser zu verstehen.
  • Partielle Self-Attention-Module: Das Modell enthält partielle Self-Attention-Module, um sich auf die wichtigsten Teile des Bildes zu konzentrieren, ohne zu viel Rechenleistung zu verbrauchen, was die Leistung effizient erhöht.
  • Einzigartige Modellvariante: Neben den üblichen YOLOv10-Größen - Nano, Small, Medium, Large und X - gibt es auch eine spezielle Version namens YOLOv10b (Balanced). Es ist ein breiteres Modell, was bedeutet, dass es mehr Merkmale auf jeder Ebene verarbeitet, was die Genauigkeit verbessert und gleichzeitig ein Gleichgewicht zwischen Geschwindigkeit und Größe schafft.
  • Benutzerfreundlich: YOLOv10 ist mit demPython von Ultralytics kompatibel und daher leicht zu bedienen.

Ultralytics YOLO11: Verbesserte Geschwindigkeit und Genauigkeit

Dieses Jahr, am 30. September, hat Ultralytics auf seinem jährlichen Hybrid-Event, der YOLO Vision 2024 (YV24), offiziell YOLO11 vorgestellt - eines der neuesten Modelle der YOLO .

Mit dieser Version wurden wesentliche Verbesserungen gegenüber früheren Versionen eingeführt. YOLO11 ist schneller, genauer und hocheffizient. Es unterstützt alle Bildverarbeitungsaufgaben, mit denen YOLOv8 vertraut sind, einschließlich Objekterkennung, Instanzsegmentierung und Bildklassifizierung. Die Kompatibilität mit den Arbeitsabläufen YOLOv8 wird beibehalten, so dass die Benutzer/innen problemlos auf die neue Version umsteigen können.

Darüber hinaus ist YOLO11 so konzipiert, dass es eine breite Palette von Computing-Anforderungen erfüllt - von leichtgewichtigen Edge-Geräten bis hin zu leistungsstarken Cloud-Systemen. Das Modell ist sowohl als Open-Source- als auch als Unternehmensversion erhältlich und kann so an verschiedene Anwendungsfälle angepasst werden.

Sie ist eine großartige Option für Präzisionsaufgaben wie medizinische Bildgebung und Satellitenortung sowie für breitere Anwendungen in autonomen Fahrzeugen, der Landwirtschaft und dem Gesundheitswesen.

Abb. 4. Einsatz von Ultralytics YOLO11 zum Erkennen, Zählen und Verfolgen des Verkehrs.

Die wichtigsten Merkmale von YOLO11

Hier sind einige der anderen einzigartigen Eigenschaften von YOLO11:

  • Schnelle und effiziente Erkennung: YOLO11 verfügt über einen Erkennungskopf, der auf minimale Latenzzeiten ausgelegt ist und sich auf die Geschwindigkeit in den letzten Vorhersageebenen konzentriert, ohne die Leistung zu beeinträchtigen.
  • Verbesserte Merkmalsextraktion: Eine optimierte Backbone- und Neck-Architektur verbessert die Merkmalsextraktion und führt zu präziseren Vorhersagen.
  • Nahtloser Einsatz auf verschiedenen Plattformen: YOLO11 ist so optimiert, dass es effizient auf Edge-Geräten, Cloud-Plattformen und NVIDIA läuft und somit in verschiedenen Umgebungen eingesetzt werden kann.

Benchmarking von YOLO mit dem COCO-Datensatz

Wenn du verschiedene Modelle untersuchst, ist es nicht immer einfach, sie nur anhand ihrer Eigenschaften zu vergleichen. Hier kommt das Benchmarking ins Spiel. Wenn wir alle Modelle auf demselben Datensatz laufen lassen, können wir ihre Leistung objektiv messen und vergleichen. Schauen wir uns an, wie jedes Modell auf dem COCO-Datensatz abschneidet.

Beim Vergleich der YOLO zeigt sich, dass jede neue Version bemerkenswerte Verbesserungen in Bezug auf Genauigkeit, Geschwindigkeit und Flexibilität mit sich bringt. Vor allem YOLO11m macht hier einen Sprung, da es 22 % weniger Parameter als YOLOv8m verwendet, was bedeutet, dass es leichter und schneller zu bedienen ist. Außerdem erreicht es trotz seiner geringeren Größe eine höhere durchschnittliche Genauigkeit (mAP) im COCO-Datensatz. Diese Kennzahl misst, wie gut das Modell Objekte erkennt und lokalisiert, und eine höhere mAP bedeutet genauere Vorhersagen. 

Abb. 5. Benchmarking von YOLO11 und anderen YOLO mit dem COCO-Datensatz.

YOLO in einem Video testen und vergleichen

Wir wollen herausfinden, wie diese Modelle in einer realen Situation funktionieren.

Um YOLOv8, YOLOv9, YOLOv10 und YOLO11 zu vergleichen , wurden alle vier auf demselben Verkehrsvideo mit einem Konfidenzwert von 0,3 (das Modell zeigt nur Erkennungen an, wenn es zu mindestens 30 % sicher ist, dass es ein Objekt richtig erkannt hat) und einer Bildgröße von 640 für eine faire Bewertung ausgeführt. Die Ergebnisse der Objekterkennung und -verfolgung zeigten wichtige Unterschiede in der Erkennungsgenauigkeit, Geschwindigkeit und Präzision. 

Vom ersten Bild an erkannte YOLO11 große Fahrzeuge wie Lastwagen, die YOLOv10 nicht erkannte. YOLOv8 und YOLOv9 zeigten eine ordentliche Leistung, schwankten aber je nach Lichtverhältnissen und Objektgröße. Kleinere, weit entfernte Fahrzeuge blieben bei allen Modellen eine Herausforderung, obwohl YOLO11 auch hier deutliche Verbesserungen bei der Erkennung zeigte.

Abb. 6. Vergleich von YOLOv8, YOLOv9, YOLOv10 und YOLO11.

In Bezug auf die Geschwindigkeit lagen alle Modelle zwischen 10 und 20 Millisekunden pro Bild und waren damit schnell genug, um Echtzeitaufgaben mit über 50 FPS zu bewältigen. Einerseits lieferten YOLOv8 und YOLOv9 über das gesamte Video hinweg gleichmäßige und zuverlässige Erkennungen. Interessanterweise war YOLOv10, das für eine geringere Latenzzeit entwickelt wurde, schneller, zeigte aber einige Unstimmigkeiten bei der Erkennung bestimmter Objekttypen. 

YOLO11 hingegen zeichnete sich durch seine Präzision aus und bot eine gute Balance zwischen Geschwindigkeit und Genauigkeit. Obwohl keines der Modelle in jedem Frame perfekt abschnitt, zeigte der Vergleich zwischen den beiden Modellen deutlich, dass YOLO11 die beste Gesamtleistung erbrachte. 

Welches YOLO ist das beste für Computer Vision Aufgaben?

Die Auswahl eines Modells für ein Projekt hängt von dessen spezifischen Anforderungen ab. Bei einigen Anwendungen kann zum Beispiel die Geschwindigkeit im Vordergrund stehen, während bei anderen eine höhere Genauigkeit erforderlich ist oder Einschränkungen bei der Bereitstellung bestehen, die die Entscheidung beeinflussen. 

Ein weiterer wichtiger Faktor ist die Art der Computer-Vision-Aufgaben, die du lösen musst. Wenn du eine größere Flexibilität für verschiedene Aufgaben suchst, sind YOLOv8 und YOLO11 eine gute Wahl.

Ob du dich für YOLOv8 oder YOLO11 entscheidest, hängt ganz von deinen Bedürfnissen ab. YOLOv8 ist eine gute Wahl, wenn du neu in der Computer Vision bist und eine größere Community, mehr Tutorials und umfangreiche Integrationen von Drittanbietern schätzt. 

Wenn du hingegen auf der Suche nach modernster Leistung mit besserer Genauigkeit und Geschwindigkeit bist, ist YOLO11 die bessere Wahl, auch wenn es aufgrund der neueren Version eine kleinere Community und weniger Integrationen gibt.

Die wichtigsten Erkenntnisse

Von Ultralytics YOLOv8 bis Ultralytics YOLO11 spiegelt die Entwicklung der YOLO einen konsequenten Vorstoß in Richtung intelligenter Computer Vision Modelle wider. Jede Version von YOLO bringt bedeutende Verbesserungen in Bezug auf Geschwindigkeit, Genauigkeit und Präzision mit sich. 

Da die Computer Vision immer weiter fortschreitet, bieten diese Modelle zuverlässige Lösungen für reale Herausforderungen, von der Objekterkennung bis zu autonomen Systemen. Die fortlaufende Entwicklung von YOLO zeigt, wie weit die Branche gekommen ist und wie viel mehr wir in Zukunft erwarten können.

Um mehr über KI zu erfahren, besuche unser GitHub-Repository und beteilige dich an unserer Community. Entdecke Fortschritte in verschiedenen Branchen, von Vision AI in der Fertigung bis hin zu Computer Vision im Gesundheitswesen. Schau dir unsere Lizenzierungsoptionen an und beginne noch heute mit deinen Vision AI-Projekten.

Facebook-LogoTwitter-LogoLinkedIn-LogoKopier-Link-Symbol

Lies mehr in dieser Kategorie

Lass uns gemeinsam die Zukunft
der KI gestalten!

Beginne deine Reise in die Zukunft des maschinellen Lernens