Entdecke YOLO12, das neueste Computer Vision Modell! Erfahre, wie seine aufmerksamkeitszentrierte Architektur und die FlashAttention-Technologie die Objekterkennung in verschiedenen Branchen verbessern
Computer Vision ist ein Teilgebiet der künstlichen Intelligenz (KI), das Maschinen hilft, Bilder und Videos zu verstehen. Es ist ein Bereich, der sich in einem unglaublichen Tempo weiterentwickelt, weil KI-Forscher/innen und -Entwickler/innen ständig an die Grenzen gehen. Die KI-Gemeinschaft ist stets bestrebt, Modelle schneller, intelligenter und effizienter zu machen. Einer der jüngsten Durchbrüche ist YOLO12, das neueste Mitglied der YOLO (You Only Look Once) Modellreihe, das am 18. Februar 2025 veröffentlicht wurde.
YOLO12 wurde von Forschern der University at Buffalo, SUNY (State University of New York) und der University of Chinese Academy of Sciences entwickelt. In einem einzigartigen neuen Ansatz führt YOLO12 Aufmerksamkeitsmechanismen ein, die es dem Modell ermöglichen, sich auf die wichtigsten Teile eines Bildes zu konzentrieren, anstatt alles gleich zu verarbeiten.
Außerdem verfügt es über FlashAttention, eine Technik, die die Verarbeitung beschleunigt und dabei weniger Speicherplatz benötigt, und einen Mechanismus für die Bereichsaufmerksamkeit, der die natürliche Konzentration des Menschen auf zentrale Objekte nachahmt.
Durch diese Verbesserungen ist YOLO12n 2,1% genauer als YOLOv10n und YOLO12m +1,0% genauer als YOLO11m. Dies hat jedoch einen Nachteil: YOLO12n ist 9 % langsamer als YOLOv10n und YOLO12m ist 3 % langsamer als YOLO11m.
In diesem Artikel erfahren wir, was YOLO12 ausmacht, wie es sich von den Vorgängerversionen unterscheidet und wo es eingesetzt werden kann.
Die YOLO ist eine Sammlung von Computer-Vision-Modellen, die für die Objekterkennung in Echtzeit entwickelt wurden, d. h. sie können Objekte in Bildern und Videos schnell identifizieren und lokalisieren. Im Laufe der Zeit hat sich jede Version in Bezug auf Geschwindigkeit, Genauigkeit und Effizienz verbessert.
Zum Beispiel, Ultralytics YOLOv5das 2020 veröffentlicht wurde, weit verbreitet, weil es schnell und einfach zu trainieren und einzusetzen war. Später, Ultralytics YOLOv8 noch weiter verbessert, indem es zusätzliche Unterstützung für Computer-Vision-Aufgaben wie Instanzsegmentierung und Objektverfolgung bot.
In jüngerer Zeit, Ultralytics YOLO11 konzentrierte sich darauf, die Echtzeitverarbeitung zu verbessern und dabei ein Gleichgewicht zwischen Geschwindigkeit und Genauigkeit zu wahren. YOLO11m hatte zum Beispiel 22 % weniger Parameter als YOLOv8m und lieferte dennoch eine bessere Erkennungsleistung im COCO-Datensatz, einem weit verbreiteten Benchmark zur Bewertung von Objekterkennungsmodellen.
Aufbauend auf diesen Fortschritten führt YOLO12 eine Veränderung in der Verarbeitung visueller Informationen ein. Anstatt alle Teile eines Bildes gleich zu behandeln, werden die wichtigsten Bereiche priorisiert, um die Erkennungsgenauigkeit zu verbessern. Kurz gesagt: YOLO12 baut auf früheren Verbesserungen auf und ist noch präziser.
YOLO12 führt mehrere Verbesserungen ein, die Bildverarbeitungsaufgaben verbessern und gleichzeitig die Verarbeitungsgeschwindigkeit in Echtzeit beibehalten. Hier ist ein Überblick über die wichtigsten Funktionen von YOLO12:
Um zu verstehen, wie diese Funktionen im wirklichen Leben funktionieren, schau dir ein Einkaufszentrum an. YOLO12 kann dabei helfen, Kunden zu verfolgen, Ladendekorationen wie Topfpflanzen oder Werbeschilder zu erkennen und verlegte oder liegen gelassene Artikel zu entdecken.
Seine aufmerksamkeitsorientierte Architektur hilft ihm, sich auf die wichtigsten Details zu konzentrieren, während FlashAttention sicherstellt, dass es alles schnell verarbeitet, ohne das System zu überlasten. Das macht es den Betreibern von Einkaufszentren leichter, die Sicherheit zu verbessern, die Ladengestaltung zu organisieren und das Einkaufserlebnis insgesamt zu verbessern.
Allerdings gibt es bei YOLO12 auch einige Einschränkungen zu beachten:
YOLO12 gibt es in mehreren Varianten, die jeweils für unterschiedliche Anforderungen optimiert sind. Bei den kleineren Versionen (nano und small) stehen Geschwindigkeit und Effizienz im Vordergrund, was sie ideal für mobile Geräte und Edge Computing macht. Die mittleren und großen Versionen schaffen ein Gleichgewicht zwischen Geschwindigkeit und Genauigkeit, während YOLO12x (extra groß) für hochpräzise Anwendungen wie Industrieautomatisierung, medizinische Bildgebung und fortschrittliche Überwachungssysteme konzipiert ist.
Mit diesen Varianten liefert YOLO12 je nach Modellgröße unterschiedliche Leistungsniveaus. Benchmark-Tests zeigen, dass bestimmte Varianten von YOLO12 die Genauigkeit von YOLOv10 und YOLO11 übertreffen und eine höhere durchschnittliche Genauigkeit (mAP) erreichen.
Einige Modelle, wie YOLO12m, YOLO12l und YOLO12x, verarbeiten Bilder jedoch langsamer als YOLO11, was einen Kompromiss zwischen Erkennungsgenauigkeit und Geschwindigkeit darstellt. Trotzdem bleibt YOLO12 effizient und benötigt weniger Parameter als viele andere Modelle, obwohl es immer noch mehr als YOLO11 benötigt. Das macht es zu einer guten Wahl für Anwendungen, bei denen die Genauigkeit wichtiger ist als die reine Geschwindigkeit.
YOLO12 wird vom Ultralytics Python unterstützt und ist einfach zu bedienen, sodass es sowohl für Anfänger als auch für Profis zugänglich ist. Mit nur wenigen Zeilen Code können Nutzer/innen vortrainierte Modelle laden, verschiedene Computer-Vision-Aufgaben auf Bildern und Videos ausführen und YOLO12 auch auf benutzerdefinierten Datensätzen trainieren. Das Ultralytics Python vereinfacht den Prozess und macht komplexe Einrichtungsschritte überflüssig.
Hier sind zum Beispiel die Schritte, die du durchführen würdest, um YOLO12 für die Objekterkennung zu verwenden:
Dank dieser Schritte kann YOLO12 für eine Vielzahl von Anwendungen eingesetzt werden, von der Überwachung und Verfolgung im Einzelhandel bis hin zur medizinischen Bildgebung und autonomen Fahrzeugen.
YOLO12 kann dank seiner Unterstützung für Objekterkennung, Instanzsegmentierung, Bildklassifizierung, Posenschätzung und orientierte Objekterkennung (OBB) in einer Vielzahl von realen Anwendungen eingesetzt werden.
Wie wir bereits erwähnt haben, steht bei den YOLO12-Modellen jedoch die Genauigkeit an erster Stelle vor der Geschwindigkeit, was bedeutet, dass sie im Vergleich zu früheren Versionen etwas länger brauchen, um Bilder zu verarbeiten. Dieser Kompromiss macht YOLO12 ideal für Anwendungen, bei denen Präzision wichtiger ist als Geschwindigkeit in Echtzeit, wie z. B.:
Bevor du YOLO12 startest, solltest du sicherstellen, dass dein System die nötigen Voraussetzungen erfüllt.
Technisch gesehen kann YOLO12 auf jeder dedizierten GPU (Graphics Processing Unit) laufen. Standardmäßig benötigt es keine FlashAttention, sodass es auf den meisten GPU auch ohne diese Funktion funktioniert. Die Aktivierung von FlashAttention kann jedoch besonders nützlich sein, wenn du mit großen Datensätzen oder hochauflösenden Bildern arbeitest, da es hilft, Verlangsamungen zu vermeiden, den Speicherverbrauch zu reduzieren und die Verarbeitungseffizienz zu verbessern.
Um FlashAttention zu nutzen, brauchst du einenGPU aus einer der folgenden Serien: Turing (T4, Quadro RTX), Ampere (RTX 30 Serie, A30, A40, A100), Ada Lovelace (RTX 40 Serie), oder Hopper (H100, H200).
Um die Benutzerfreundlichkeit und Zugänglichkeit zu gewährleisten, unterstützt das Ultralytics Python noch nicht die FlashAttention-Inferenz, da die Installation technisch recht komplex sein kann. Wenn du mehr über die ersten Schritte mit YOLO12 und die Optimierung seiner Leistung erfahren möchtest, schau dir die offizielle Ultralytics an.
Mit den Fortschritten in der Computer Vision werden die Modelle immer präziser und effizienter. YOLO12 verbessert Computer-Vision-Aufgaben wie Objekterkennung, Instanzsegmentierung und Bildklassifizierung mit aufmerksamkeitsorientierter Verarbeitung und FlashAttention, wodurch die Genauigkeit erhöht und die Speichernutzung optimiert wird.
Gleichzeitig ist die Computer Vision zugänglicher denn je. YOLO12 ist durch dasPython einfach zu bedienen und eignet sich mit seinem Fokus auf Genauigkeit statt Geschwindigkeit gut für medizinische Bildgebung, industrielle Inspektionen und Robotik - Anwendungen, bei denen es auf Präzision ankommt.
Neugierig auf KI? Besuche unser GitHub-Repository und tausche dich mit unserer Community aus. Entdecke Innovationen in Bereichen wie KI in selbstfahrenden Autos und Computer Vision in der Landwirtschaft auf unseren Lösungsseiten. Schau dir unsere Lizenzierungsoptionen an und erwecke deine Vision AI-Projekte zum Leben. 🚀
Beginne deine Reise in die Zukunft des maschinellen Lernens