Glossar

Datensee

Entdecke, was Data Lakes sind, ihre Funktionen, Vorteile und ihre Rolle in der KI/ML. Erfahre, wie sie das Big Data Management und die Analytik verändern.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Ein Data Lake ist ein zentraler Speicher, in dem große Mengen an Rohdaten in ihrem ursprünglichen Format gespeichert werden können, ohne dass bei der Aufnahme eine vordefinierte Struktur oder ein Schema vorgegeben wird. Anders als herkömmliche Datenbanken oder Data Warehouses kann ein Data Lake strukturierte (wie Tabellen), halbstrukturierte (wie JSON, XML) und unstrukturierte Daten (wie Bilder, Videos, Audio, Textdokumente und Sensorprotokolle) nebeneinander speichern. Diese Flexibilität macht ihn zu einem unschätzbaren Vorteil für moderne Datenanalysen, insbesondere in den Bereichen Künstliche Intelligenz (KI) und Maschinelles Lernen (ML).

Kernkonzepte

Die Grundidee hinter einem Data Lake ist es, eine kostengünstige und skalierbare Speicherlösung für Big Data zu bieten. Zu den wichtigsten Merkmalen gehören:

  • Speicherung von Rohdaten: Die Daten werden in ihrer ursprünglichen, unbearbeiteten Form aufgenommen und gespeichert.
  • Vielfältige Datentypen: Unterstützt verschiedene Formate, die für eine umfassende Analyse und das Training verschiedener KI-Modelle, wie z. B. für Computer Vision, wichtig sind.
  • Skalierbarkeit: Normalerweise basieren sie auf Cloud-Speicherplattformen wie Amazon S3 oder Google Cloud Storage, die eine praktisch unbegrenzte Erweiterung ermöglichen.
  • Schema-on-Read: Die Struktur wird erst dann auf die Daten angewendet, wenn sie gelesen oder zur Analyse abgefragt werden, und nicht schon beim Speichern (Schema-on-Write). Dies bietet Flexibilität für die Erkundung und verschiedene analytische Anforderungen, wie in der AWS-Dokumentation zu Data Lakes erklärt wird.

Data Lake vs. Data Warehouse

Obwohl sowohl Data Lakes als auch Data Warehouses Daten speichern, dienen sie unterschiedlichen Zwecken und gehen unterschiedlich mit Daten um.

  • Data Warehouse: Speichert strukturierte, verarbeitete Daten, die für bestimmte Business Intelligence- und Berichtsaufgaben bereinigt und umgewandelt wurden. Es verwendet ein vordefiniertes Schema (schema-on-write). Man kann es sich wie eine Bibliothek mit kuratierten Büchern vorstellen. Erfahre mehr über Data Warehousing-Konzepte von IBM.
  • Data Lake: Speichert rohe, ungefilterte Daten aller Art. Die Struktur wird während der Analyse angewendet (schema-on-read), was ihn ideal für Datenexploration, Data Science und das Training von Machine Learning (ML) -Modellen macht, die große, vielfältige Datensätze benötigen. Es ist wie ein riesiger Pool an Rohdaten, der darauf wartet, erforscht zu werden.

Relevanz in KI und maschinellem Lernen

Data Lakes sind die Grundlage für viele KI- und ML-Workflows. Die Möglichkeit, riesige Mengen unterschiedlicher Rohdaten zu speichern, ist für das Training anspruchsvoller Modelle unerlässlich, insbesondere beim Deep Learning (DL). Data Scientists können für Aufgaben wie Datenvorverarbeitung, Feature Engineering und explorative Analysen auf Rohdaten zugreifen, bevor sie sie in Trainings-Pipelines einspeisen. Plattformen wie Ultralytics HUB können Datensätze nutzen, die von Data Lakes verwaltet oder bezogen werden, um Modelle zu trainieren wie Ultralytics YOLO für Aufgaben wie die Objekterkennung oder Bildsegmentierung zu trainieren. Der Zugang zu umfassenden Datensätzen ist entscheidend für die Leistung der Modelle.

Anwendungen in der realen Welt

  1. Entwicklung von autonomen Fahrzeugen: Unternehmen, die autonome Fahrzeuge entwickeln, sammeln bei Testfahrten Petabytes an Daten von Sensoren (Kameras, LiDAR, Radar, GPS). Diese Rohdaten in verschiedenen Formaten werden in einem Data Lake gespeichert. ML-Ingenieure greifen dann auf diese Daten zu, um Wahrnehmungsmodelle zu trainieren und zu validieren, z. B. Modelle zur Objekterkennung, um Fußgänger und andere Fahrzeuge zu identifizieren, was für eine sichere Navigation wichtig ist.
  2. Personalisierte Kundenerlebnisse: E-Commerce- und Streaming-Plattformen sammeln riesige Mengen an Nutzerinteraktionsdaten (Klicks, Kaufhistorie, Sehgewohnheiten, Social Media Feeds, Geräteprotokolle) in einem Data Lake. Data Scientists nutzen Tools wie Apache Spark, um diese vielfältigen Daten zu verarbeiten und ML-Modelle für Empfehlungssysteme zu erstellen, die die Vorlieben der Nutzer/innen vorhersagen und personalisierte Inhalte oder Produktvorschläge in Echtzeit liefern.

Data Lakes bieten die nötige Skalierbarkeit und Flexibilität, um das wachsende Volumen und die Vielfalt der Daten zu bewältigen, die für moderne KI-Lösungen benötigt werden.

Alles lesen