Glossar

ImageNet

Entdecke ImageNet, den bahnbrechenden Datensatz mit mehr als 14 Millionen Bildern, der die KI-Forschung, -Modelle und -Anwendungen vorantreibt und die Entwicklung der Computer Vision vorantreibt.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

ImageNet ist ein sehr großer, grundlegender Datensatz, der in der Forschung und Entwicklung von Computer Vision (CV) weit verbreitet ist. Er enthält über 14 Millionen Bilder, die manuell beschriftet wurden, um die abgebildeten Objekte zu kennzeichnen. Diese Bilder sind nach der WordNet-Hierarchie geordnet, einer großen lexikalischen Datenbank mit English Substantiven, Verben, Adjektiven und Adverbien, die in Gruppen von kognitiven Synonymen (Synsets) zusammengefasst sind. Mit mehr als 20.000 Kategorien ist ImageNet eine reichhaltige und vielfältige Ressource für das Training und die Evaluierung von Modellen des maschinellen Lernens (ML), insbesondere für Aufgaben wie Bildklassifizierung und Bilderkennung. Seine schiere Größe und seine detaillierten Annotationen haben den Bereich der künstlichen Intelligenz (KI) entscheidend vorangebracht. Auf der Dokumentationsseite zum ImageNet Dataset erfährst du mehr über die Verwendung des Datensatzes mit Ultralytics .

Bedeutung und Relevanz

Die Einführung von ImageNet war ein entscheidender Moment für Deep Learning (DL), insbesondere im Bereich Computer Vision. Vor ImageNet war der Mangel an großen, vielfältigen und gut beschrifteten Datensätzen ein großer Engpass, der den Fortschritt behinderte. Qualitativ hochwertige Datensätze wie ImageNet ermöglichten das Training von viel tieferen und komplexeren Modellen, wie z. B. Convolutional Neural Networks (CNNs), was zu bedeutenden Durchbrüchen bei Aufgaben des visuellen Verständnisses führte. Die jährliche ImageNet Large Scale Visual Recognition Challenge (ILSVRC), die von 2010 bis 2017 stattfand, verwendete eine Teilmenge von ImageNet und wurde zum Standard-Benchmark-Datensatz für die Bewertung von Algorithmen zur Bildklassifizierung und Objekterkennung. Bahnbrechende Modelle wie AlexNet und ResNet, die auf ImageNet die besten Ergebnisse erzielten, haben moderne CV-Architekturen stark beeinflusst und die Leistungsfähigkeit von Deep Learning bei großen Datenmengen gezeigt. Das Originalpapier des ILSVRC enthält weitere Einzelheiten über die Herausforderung und ihre Auswirkungen.

Anwendungen von ImageNet

ImageNet dient in erster Linie als Standard-Benchmark für die Bewertung der Leistung(Genauigkeit, Geschwindigkeit) neuer Computer-Vision-Modelle und -Algorithmen, insbesondere für die Bildklassifizierung. Seine weite Verbreitung ermöglicht den Forschern einen fairen Vergleich der Ergebnisse. Neben dem Benchmarking wird ImageNet auch häufig zum Vortraining von Modellen verwendet. Beim Pre-Training wird ein Modell zunächst auf dem großen und allgemeinen ImageNet-Datensatz trainiert, damit es robuste visuelle Merkmale lernen kann. Diese vortrainierten Modelle, die oft über Frameworks wie PyTorch und TensorFlowzur Verfügung stehen, können dann auf kleineren, spezifischeren Datensätzen für verschiedene nachgelagerte Aufgaben mithilfe von Transfer-Lernen feinabgestimmt werden. Dies reduziert die für die Zielaufgabe benötigte Daten- und Rechenmenge erheblich und führt oft zu einer besseren Leistung, besonders wenn der Zieldatensatz klein ist. Viele Ultralytics YOLO Modelle nutzen zum Beispiel Pre-Training-Strategien. Plattformen wie Ultralytics HUB erleichtern das Training von Modellen mit solchen Techniken.

Beispiele aus der realen Welt

Der Einfluss von ImageNet geht weit über die akademische Forschung hinaus und erstreckt sich auf praktische Anwendungen:

  • Medizinische Bildanalyse: Modelle, die auf ImageNet trainiert wurden, werden oft für spezielle Aufgaben in der medizinischen Bildanalyse angepasst. Obwohl sich medizinische Bilder erheblich von ImageNet-Fotos unterscheiden, bieten die erlernten grundlegenden visuellen Merkmale (wie Kanten, Texturen, Grundformen) eine gute Ausgangsbasis. Dieser Ansatz beschleunigt die Entwicklung von KI-Tools für Aufgaben wie die Tumorerkennung in der medizinischen Bildgebung oder die Erkennung von Anomalien in Röntgenbildern oder CT-Scans und trägt so zu Fortschritten in der KI im Gesundheitswesen bei.
  • Autonome Systeme: Wahrnehmungssysteme in autonomen Fahrzeugen und in der Robotik sind stark darauf angewiesen, Objekte wie Fußgänger, Autos, Verkehrsschilder und Hindernisse genau zu erkennen. Das Vortraining der Objekterkennungskomponenten dieser Systeme auf ImageNet hilft ihnen, allgemeine Objektmerkmale zu erlernen, was ihre Robustheit und Zuverlässigkeit bei der Feinabstimmung auf spezifische Fahr- oder Betriebsumgebungsdaten verbessert. Dies trägt zur Entwicklung von Technologien bei, wie sie von Waymo verwendet und in KI-Lösungen für das Auto integriert werden.

ImageNet vs. Verwandte Konzepte

Es ist wichtig, ImageNet von den Aufgaben, die es unterstützt, und anderen verwandten Datensätzen zu unterscheiden:

  • ImageNet vs. CV Tasks: ImageNet selbst ist ein Datensatz, eine Sammlung von beschrifteten Bildern. Es ist keine Aufgabe wie die Bildklassifizierung (Zuweisung eines einzelnen Labels zu einem Bild), die Objekterkennung (Lokalisierung von Objekten mit Begrenzungsrahmen) oder die Bildsegmentierung (Zuweisung eines Labels zu jedem Pixel, einschließlich Instanzsegmentierung und semantischer Segmentierung). Stattdessen wird ImageNet in erster Linie dazu verwendet, Modelle zu trainieren und zu bewerten, die diese Aufgaben erfüllen, insbesondere die Klassifizierung.
  • ImageNet vs. COCO: Während ImageNet der Standard für die Klassifizierung ist, werden Datensätze wie COCO (Common Objects in Context) häufiger für das Benchmarking von Objekterkennung und Segmentierung verwendet. Das liegt daran, dass COCO detailliertere Anmerkungen enthält, die für diese Aufgaben notwendig sind, wie z. B. präzise Bounding Boxes und Segmentierungsmasken pro Pixel für mehrere Objekte pro Bild, während ImageNet in erster Linie Beschriftungen auf Bildebene liefert (obwohl einige Daten zur Objektlokalisierung vorhanden sind). Ultralytics unterstützt eine Vielzahl von Computer-Vision-Datensätzen für unterschiedliche Aufgaben.

ImageNet ist zwar unglaublich einflussreich, hat aber auch seine Grenzen. Dazu gehören mögliche Verzerrungen des Datensatzes aufgrund des Zeitraums und der Quellen der Datenerhebung, was in der KI-Ethik ein wichtiger Aspekt ist.

Alles lesen