Grüner Scheck
Link in die Zwischenablage kopiert

Die besten Computer-Vision-Datensätze im Jahr 2025 erforschen

Schau dir mit uns die besten Computer-Vision-Datensätze des Jahres 2025 genauer an. Erfahre, wie vielfältige und hochwertige Datensätze intelligentere KI-Lösungen ermöglichen.

Wusstest du, dass Daten bei fast allem, was du täglich tust, eine Rolle spielen? Wenn du ein Video ansiehst, ein Foto machst oder Google Maps aufrufst, trägt das zu dem ständigen Informationsfluss bei, der von über 75 Milliarden vernetzten Geräten erfasst wird. Diese Daten bilden die Grundlage für künstliche Intelligenz (KI). Tatsächlich sind fortschrittliche Computer Vision Modelle wie Ultralytics YOLO11 stützen sich auf visuelle Daten, um Muster zu erkennen, Bilder zu interpretieren und die Welt um uns herum zu verstehen.

Interessanterweise geht es beim Wert von Daten nicht nur um die Menge. Vielmehr kommt es darauf an, wie gut sie organisiert und aufbereitet sind. Wenn ein Datensatz unordentlich oder unvollständig ist, kann das zu Fehlern führen. Wenn die Datensätze jedoch sauber und vielfältig sind, helfen sie den Bildverarbeitungsmodellen dabei, besser zu funktionieren, egal ob es darum geht, Objekte in einer Menschenmenge zu erkennen oder komplexe Bilder zu analysieren. Hochwertige Datensätze machen den Unterschied aus.

In diesem Artikel erkunden wir die besten Computer-Vision-Datensätze des Jahres 2025 und sehen, wie sie dazu beitragen, genauere und effizientere Computer-Vision-Modelle zu erstellen. Los geht's!

Was sind Computer-Vision-Datensätze?

Ein Computer-Vision-Datensatz ist eine Sammlung von Bildern oder Videos, mit deren Hilfe Computer-Vision-Systeme lernen, visuelle Informationen zu verstehen und zu erkennen. Diese Datensätze enthalten Beschriftungen oder Anmerkungen, die den Modellen helfen, Objekte, Personen, Szenen und Muster in den Daten zu erkennen.

Sie können verwendet werden, um Computer-Vision-Modelle zu trainieren, damit sie Aufgaben wie die Identifizierung von Gesichtern, die Erkennung von Objekten oder die Analyse von Szenen verbessern können. Je besser der Datensatz ist - gut organisiert, vielfältig und genau - desto besser ist die Leistung des KI-Modells, was zu intelligenteren und nützlicheren Technologien im Alltag führt.

Wie man einen Computer Vision-Datensatz erstellt

Der Aufbau eines Computer-Vision-Datensatzes ist wie die Vorbereitung von Studienunterlagen, um jemandem beizubringen, wie man die Welt sieht und versteht. Alles beginnt mit dem Sammeln von Bildern und Videos, die zu der spezifischen Anwendung passen, die du entwickelst. 

Ein idealer Datensatz besteht aus verschiedenen Beispielen von Objekten, die aus unterschiedlichen Blickwinkeln, unter verschiedenen Lichtverhältnissen und vor verschiedenen Hintergründen und Umgebungen aufgenommen wurden. Diese Vielfalt stellt sicher, dass das Computer Vision Modell lernt, Muster genau zu erkennen und in realen Szenarien zuverlässig zu funktionieren.

Abb. 1. Aufbau des perfekten Vision-Datensatzes. Bild vom Autor.

Nachdem du relevante Bilder und Videos gesammelt hast, ist der nächste Schritt die Kennzeichnung der Daten. Dabei werden die Daten mit Tags, Kommentaren oder Beschreibungen versehen, damit die KI versteht, was die einzelnen Bilder oder Videos enthalten. 

Beschriftungen können Objektnamen, Orte, Grenzen oder andere relevante Details enthalten, die dem Modell helfen, visuelle Informationen genau zu erkennen und zu interpretieren. Die Datenbeschriftung verwandelt eine einfache Sammlung von Bildern in einen strukturierten Datensatz, der zum Trainieren eines Computer Vision Modells verwendet werden kann.

Modelltraining erfordert hochwertige Daten

Du fragst dich vielleicht, was die Qualität eines Datensatzes ausmacht. Dabei spielen viele Faktoren eine Rolle, wie z. B. die genaue Beschriftung, die Vielfalt und die Konsistenz. Wenn zum Beispiel mehrere Kommentatoren einen Datensatz zur Objekterkennung beschriften, um Katzenohren zu identifizieren, kann es sein, dass ein Kommentator sie als Teil des Kopfes bezeichnet, während ein anderer sie separat als Ohren bezeichnet. Diese Inkonsistenz kann das Modell verwirren und seine Fähigkeit, richtig zu lernen, beeinträchtigen.

Hier ist ein kurzer Überblick über die Eigenschaften eines idealen Computer Vision Datensatzes:

  • Klare Beschriftungen: Jedes Bild wird mit einheitlichen und präzisen Beschriftungen versehen.
  • Vielfältige Daten: Der Datensatz enthält verschiedene Objekte, Hintergründe, Lichtverhältnisse und Blickwinkel, damit das Modell in verschiedenen Situationen gut funktioniert.
  • Hochauflösende Bilder: Scharfe, detaillierte Bilder erleichtern es dem Modell, zu lernen und Merkmale zu erkennen.

Ultralytics unterstützt verschiedene Datensätze

Ultralytics YOLO , wie YOLO11, sind für die Arbeit mit Datensätzen in einem bestimmten YOLO ausgelegt. Es ist zwar einfach, deine eigenen Daten in dieses Format zu konvertieren, aber wir bieten auch eine problemlose Option für diejenigen, die sofort mit dem Experimentieren beginnen möchten. 

Das Ultralytics Python unterstützt eine Vielzahl von Computer-Vision-Datensätzen und ermöglicht es dir, ohne zusätzliches Setup in Projekte mit Aufgaben wie Objekterkennung, Instanzsegmentierung oder Posenschätzung einzusteigen.  

Du kannst ganz einfach auf gebrauchsfertige Datensätze wie COCO, DOTA-v2.0, Open Images V7 und ImageNet zugreifen, indem du den Namen des Datensatzes als einen der Parameter in der Trainingsfunktion angibst. In diesem Fall wird der Datensatz automatisch heruntergeladen und vorkonfiguriert, sodass du dich auf die Erstellung und Verfeinerung deiner Modelle konzentrieren kannst.

Die 5 wichtigsten Computer-Vision-Datensätze im Jahr 2025

Fortschritte in der KI beruhen auf vielfältigen, umfangreichen Datensätzen, die Innovationen vorantreiben und Durchbrüche ermöglichen. Werfen wir einen Blick auf einige der wichtigsten Datensätze, die von Ultralytics unterstützt werden und die Computer Vision Modelle beeinflussen.

ImageNet-Datensatz 

ImageNet, das 2007 von Fei-Fei Li und ihrem Team an der Princeton University entwickelt und 2009 vorgestellt wurde, ist ein großer Datensatz mit über 14 Millionen beschrifteten Bildern. Er wird häufig verwendet, um Systeme zu trainieren, die verschiedene Objekte erkennen und kategorisieren. Sein strukturierter Aufbau macht ihn besonders nützlich, um Modelle für die genaue Klassifizierung von Bildern zu trainieren. Der Datensatz ist zwar gut dokumentiert, konzentriert sich aber in erster Linie auf die Klassifizierung von Bildern und enthält keine detaillierten Beschreibungen für Aufgaben wie die Objekterkennung. 

Hier ein Blick auf einige der wichtigsten Stärken von ImageNet:

  • Vielfältigkeit: Mit Bildern aus über 20.000 Kategorien bietet ImageNet einen riesigen und vielfältigen Datensatz, der das Modelltraining und die Generalisierung verbessert.
  • Strukturierte Organisation: Die Bilder werden mithilfe der WordNet-Hierarchie sorgfältig kategorisiert, was eine effiziente Datenabfrage und ein systematisches Modelltraining ermöglicht. 
  • Umfassende Dokumentation: Umfangreiche Forschung und jahrelange Studien machen ImageNet sowohl für Anfänger als auch für Experten zugänglich und bieten wertvolle Einblicke und Anleitungen für Computer Vision Projekte.

Doch wie jeder Datensatz hat auch dieser seine Grenzen. Hier sind einige der Herausforderungen, die es zu beachten gilt:

  • Rechnerische Anforderungen: Seine enorme Größe kann für kleinere Teams mit begrenzten Rechenressourcen eine Herausforderung darstellen.
  • Mangel an zeitlichen Daten: Da sie nur statische Bilder enthält, erfüllt sie möglicherweise nicht die Anforderungen von Anwendungen, die Video- oder zeitbasierte Daten benötigen.
  • Veraltete Bilder: Einige Bilder im Datensatz sind älter und spiegeln möglicherweise nicht die aktuellen Objekte, Stile oder Umgebungen wider, was die Relevanz für moderne Anwendungen verringern kann.

DOTA-v2.0-Datensatz

Der DOTA-v2.0-Datensatz(DOTA steht für Dataset for Object Detection in Aerial Images) ist eine umfangreiche Sammlung von Luftbildern, die speziell für die Erkennung von Objekten in orientierten Bounding Boxen (OBB) erstellt wurde. Bei der OBB-Erkennung werden gedrehte Begrenzungsrahmen verwendet, um die tatsächliche Ausrichtung der Objekte im Bild genauer zu bestimmen. Diese Methode eignet sich besonders gut für Luftbilder, auf denen Objekte oft in verschiedenen Winkeln erscheinen, was zu einer präziseren Lokalisierung und einer insgesamt besseren Erkennung führt.

Dieser Datensatz besteht aus über 11.000 Bildern und mehr als 1,7 Millionen orientierten Bounding Boxes in 18 Objektkategorien. Die Bilder sind zwischen 800×800 und 20.000×20.000 Pixel groß und enthalten Objekte wie Flugzeuge, Schiffe und Gebäude. 

Abb. 2. Beispiele für Bilder und Anmerkungen aus dem DOTA-v2.0-Datensatz. Bild vom Autor.

Aufgrund seiner detaillierten Anmerkungen ist DOTA-v2.0 eine beliebte Wahl für Fernerkundungs- und Luftüberwachungsprojekte geworden. Hier sind einige der wichtigsten Funktionen von DOTA-v2.0:

  • Vielfältige Objektkategorien: Sie deckt viele verschiedene Objekttypen ab, wie z.B. Fahrzeuge, Häfen und Lagertanks, so dass die Modelle verschiedene Objekte der realen Welt kennenlernen.
  • Hochwertige Beschriftungen: Erfahrene Kommentatoren haben präzise orientierte Bounding Boxes erstellt, die Objektformen und -richtungen deutlich zeigen.
  • Multiskalige Bilder: Der Datensatz enthält Bilder unterschiedlicher Größe, so dass die Modelle lernen können, wie sie Objekte sowohl im kleinen als auch im großen Maßstab erkennen können.

DOTA-v2 hat zwar viele Stärken, aber es gibt auch einige Einschränkungen, die du beachten solltest:

  • Zusätzliche Download-Schritte: Aufgrund der Art und Weise, wie der DOTA-Datensatz gepflegt wird, erfordert DOTA-v2.0 einen zusätzlichen Einrichtungsschritt. Du musst zuerst die DOTA-v1.0 Bilder herunterladen und dann die zusätzlichen Bilder und aktualisierten Anmerkungen für DOTA-v2.0 hinzufügen, um den Datensatz zu vervollständigen.
  • Komplexe Beschriftungen: Orientierte Boundingboxen können beim Modelltraining zusätzlichen Aufwand erfordern.
  • Begrenzter Anwendungsbereich: DOTA-v2 wurde für Luftbilder entwickelt, was es für allgemeine Aufgaben der Objekterkennung außerhalb dieses Bereichs weniger nützlich macht.

Roboflow 100-Datensatz 

Der Roboflow 100 (RF100)-Datensatz wurde von Roboflow mit Unterstützung von Intel erstellt. Er kann verwendet werden, um zu testen und zu vergleichen, wie gut die Modelle zur Objekterkennung funktionieren. Dieser Benchmark-Datensatz umfasst 100 verschiedene Datensätze, die aus über 90.000 öffentlichen Datensätzen ausgewählt wurden. Er enthält mehr als 224.000 Bilder und 800 Objektklassen aus Bereichen wie Gesundheitswesen, Luftaufnahmen und Spiele. 

Hier sind einige der wichtigsten Vorteile des RF100:

  • Breite Abdeckung von Bereichen: Es umfasst Datensätze aus sieben Bereichen, z. B. medizinische Bildgebung, Luftaufnahmen und Unterwasserforschung. 
  • Ermutigt zur Verbesserung der Modelle: Die Variabilität und die domänenspezifischen Herausforderungen im RF100 zeigen Lücken in den aktuellen Modellen auf und treiben die Forschung zu anpassungsfähigeren und robusteren Lösungen für die Objekterkennung voran.
  • Einheitliches Bildformat: Alle Bilder werden auf 640x640 Pixel verkleinert. Das hilft den Nutzern, Modelle zu trainieren, ohne die Bildgrößen anpassen zu müssen.

Trotz seiner Stärken hat der RF100 auch einige Nachteile, die es zu beachten gilt:

  • Begrenzt in Bezug auf die Aufgaben: Der RF100 wurde für die Objekterkennung entwickelt und ist daher nicht für Aufgaben wie Segmentierung oder Klassifizierung geeignet.
  • Der Fokus liegt auf Benchmarks: RF100 ist in erster Linie als Benchmarking-Tool und nicht zum Trainieren von Modellen für reale Anwendungen gedacht, daher lassen sich seine Ergebnisse möglicherweise nicht vollständig auf praktische Einsatzszenarien übertragen.
  • Unterschiedliche Beschriftungen: Da der RF100 Datensätze, die von einer Vielzahl von Personen stammen, zusammenfasst, kann es zu Unstimmigkeiten bei der Qualität der Annotationen und der Beschriftungspraxis kommen, was sich auf die Modellevaluation und die Feinabstimmung auswirken kann.

COCO (Common objects in context)-Datensatz

Der COCO-Datensatz ist einer der am weitesten verbreiteten Computer-Vision-Datensätze und enthält über 330.000 Bilder mit detaillierten Bildkommentaren. Er wurde für die Objekterkennung, Segmentierung und Bildbeschriftung entwickelt und ist damit eine wertvolle Ressource für viele Projekte. Die detaillierten Beschriftungen, einschließlich Bounding Boxes und Segmentierungsmasken, helfen Systemen, Bilder präzise zu analysieren.

Dieser Datensatz ist für seine Flexibilität bekannt und eignet sich für verschiedene Aufgaben, von einfachen bis hin zu komplexen Projekten. Er hat sich zu einem Standard im Bereich der Bildverarbeitung entwickelt und wird häufig bei Wettbewerben und Challenges verwendet, um die Leistung von Modellen zu bewerten.

Einige seiner Stärken sind:

  • Vielfältige und realistische Daten: Der Datensatz enthält Bilder aus realen Szenarien mit mehreren Objekten, Verdeckungen und unterschiedlichen Lichtverhältnissen.
  • Starke Akzeptanz in der Community und in der Forschung: Der COCO-Datensatz wird in wichtigen Wettbewerben für maschinelles Lernen und in der Forschung verwendet und verfügt über eine ausführliche Dokumentation, vortrainierte Modelle und aktive Unterstützung durch die Community.
  • Reichhaltige und detaillierte Anmerkungen: Der COCO-Datensatz bietet sehr detaillierte Anmerkungen, einschließlich Objektsegmentierung, Schlüsselpunkte und Beschriftungen, was ihn ideal für Projekte macht, die ein präzises visuelles Verständnis erfordern.

Auch hier gibt es ein paar einschränkende Faktoren, die du beachten solltest:

  • Hohe Anforderungen an die Rechenleistung: Aufgrund seiner Größe und Komplexität kann das Training von Modellen auf COCO erhebliche Rechenressourcen erfordern, was es für Teams mit begrenzter Hardware zu einer Herausforderung macht.
  • Unausgewogenheit der Daten: Einige Objektkategorien haben deutlich mehr Bilder als andere, was zu Verzerrungen beim Modelltraining führen kann.
  • Komplexe Annotationsstruktur: Die detaillierten Annotationen des Datensatzes sind zwar wertvoll, können aber für Anfänger oder kleinere Teams, denen es an Erfahrung in der Arbeit mit strukturierten Vision AI-Datensätzen fehlt, überwältigend sein.

Open Images V7-Datensatz

Open Images V7 ist ein riesiger Open-Source-Datensatz, der von Google kuratiert wurde und über 9 Millionen Bilder mit Annotationen für 600 Objektkategorien enthält. Er umfasst eine Vielzahl von Annotationstypen und ist ideal für die Bewältigung komplexer Computer-Vision-Aufgaben. Sein Umfang und seine Tiefe bieten eine umfassende Ressource zum Trainieren und Testen von Computer-Vision-Modellen.

Abb. 3. Ein Blick auf den Open Images V7-Datensatz. Bild vom Autor.

Die Beliebtheit des Open Images V7-Datensatzes in der Forschung bietet außerdem viele Ressourcen und Beispiele, von denen die Nutzer lernen können. Allerdings kann die enorme Größe des Datensatzes das Herunterladen und Verarbeiten zeitaufwändig machen, besonders für kleinere Teams. Ein weiteres Problem ist, dass einige Anmerkungen inkonsistent sein können, was einen zusätzlichen Aufwand bei der Bereinigung der Daten erfordert, und die Integration ist nicht immer nahtlos, sodass zusätzliche Vorbereitungen erforderlich sein können. 

Die Wahl des richtigen Datensatzes 

Die Auswahl des richtigen Datensatzes ist ein wichtiger Faktor für den Erfolg deines Computer Vision Projekts. Die beste Wahl hängt von deiner spezifischen Aufgabe ab - eine gute Übereinstimmung hilft deinem Modell, die richtigen Fähigkeiten zu erlernen. Außerdem sollte es sich leicht mit deinen Tools integrieren lassen, damit du dich mehr auf die Entwicklung deines Modells und weniger auf die Fehlersuche konzentrieren kannst.

Abb. 4. Faktoren für die Auswahl des richtigen Datensatzes. Bild vom Autor.

Die wichtigsten Erkenntnisse

Qualitativ hochwertige Datensätze sind das Rückgrat eines jeden Computer-Vision-Modells und helfen den Systemen, Bilder richtig zu interpretieren. Vielfältige und gut kommentierte Datensätze sind besonders wichtig, da sie es den Modellen ermöglichen, in realen Szenarien zuverlässig zu funktionieren und Fehler zu reduzieren, die durch begrenzte oder qualitativ schlechte Daten verursacht werden.

Ultralytics vereinfacht den Zugriff auf und die Arbeit mit Computer-Vision-Datensätzen und macht es einfacher, die richtigen Daten für dein Projekt zu finden. Die Auswahl des richtigen Datensatzes ist ein entscheidender Schritt beim Aufbau eines leistungsstarken Modells, das zu präziseren und aussagekräftigeren Ergebnissen führt.

Tritt unserer Community bei und erkunde unser GitHub-Repository, um mehr über KI zu erfahren. Entdecke Fortschritte wie Computer Vision für das Gesundheitswesen und KI in selbstfahrenden Autos auf unseren Lösungsseiten. Informiere dich über unsere Lizenzierungsoptionen und mache noch heute den ersten Schritt zum Einstieg in die Computer Vision!

Facebook-LogoTwitter-LogoLinkedIn-LogoKopier-Link-Symbol

Lies mehr in dieser Kategorie

Lass uns gemeinsam die Zukunft
der KI gestalten!

Beginne deine Reise in die Zukunft des maschinellen Lernens