Glossar

Datensee

Entdecke, was Data Lakes sind, ihre Funktionen, Vorteile und ihre Rolle in der KI/ML. Erfahre, wie sie das Big Data Management und die Analytik verändern.

Ein Data Lake ist ein zentraler Speicher, in dem große Mengen an Rohdaten in ihrem ursprünglichen Format gespeichert werden können, ohne dass bei der Aufnahme eine vordefinierte Struktur oder ein Schema vorgegeben wird. Im Gegensatz zu herkömmlichen Datenbanken oder Data Warehouses, bei denen die Daten vor der Speicherung strukturiert werden müssen, können in einem Data Lake strukturierte (z. B. Tabellen einer relationalen Datenbank), halbstrukturierte (z. B. JSON- oder XML-Dateien ) und unstrukturierte Daten (z. B. Bilder, Videos, Audiodaten, Textdokumente und Sensorprotokolle) nebeneinander gespeichert werden. Diese Flexibilität macht sie zu einem unschätzbaren Vorteil für die moderne Datenanalyse, insbesondere in den Bereichen künstliche Intelligenz (KI) und maschinelles Lernen (ML), in denen oft unterschiedliche Datensätze benötigt werden.

Kernkonzepte

Die Grundidee hinter einem Data Lake ist es, eine kostengünstige und hoch skalierbare Speicherlösung für Big Data bereitzustellen. Zu den wichtigsten Merkmalen gehören:

Schema-on-Read: Im Gegensatz zu Data Warehouses (Schema-on-Write) werden bei Data Lakes die Strukturen oder Schemata erst dann angewendet, wenn die Daten zur Analyse gelesen werden. Dies ermöglicht eine schnellere Aufnahme von Rohdaten.
Speicherung von Rohdaten: Die Daten werden in ihrem ursprünglichen, unbearbeiteten Format gespeichert. So bleiben alle Details erhalten, die für zukünftige, unvorhergesehene Analysen oder das ML-Modelltraining nützlich sein könnten.
Skalierbarkeit: Data Lakes basieren in der Regel auf verteilten Dateisystemen oder Cloud-Speichern wie Amazon S3 oder Google Cloud Storage und können leicht auf Petabytes oder sogar Exabytes an Daten skalieren.
Vielfältige Datentypen: Unterstützt eine Vielzahl von Datenformaten aus unterschiedlichen Quellen, was für umfassende Analysen in Bereichen wie Computer Vision (CV) entscheidend ist. Weitere Informationen findest du in der AWS-Dokumentation zu Data Lakes.

Data Lake Vs. Data Warehouse

Obwohl sowohl Data Lakes als auch Data Warehouses für die Speicherung großer Datenmengen genutzt werden, dienen sie unterschiedlichen Zwecken und gehen unterschiedlich mit Daten um.

Data Warehouse: Speichert gefilterte, strukturierte Daten, die bereits für einen bestimmten Zweck aufbereitet wurden (schema-on-write). Optimiert für Business Intelligence-Berichte und SQL-Abfragen. Stell dir vor, es ist ein Lager für abgefülltes Wasser - gereinigt und trinkfertig. Weitere Informationen findest du unter Data Warehousing-Konzepte von IBM.
Data Lake: Speichert Rohdaten in ihrem ursprünglichen Format (schema-on-read). Ideal für Datenexploration, Data Mining und das Training von Machine Learning (ML) -Modellen, die Zugang zu unverarbeiteten Originaldaten benötigen. Stell dir das wie einen natürlichen See vor - Wasser in seiner Rohform aus verschiedenen Quellen. Die Vorverarbeitung der Daten erfolgt nach dem Abruf der Daten, zugeschnitten auf die jeweilige Analyseaufgabe.

Relevanz für KI und maschinelles Lernen

Data Lakes sind die Grundlage für viele KI- und ML-Workflows, insbesondere für Deep Learning (DL). Die Fähigkeit, riesige Mengen unterschiedlicher Rohdaten zu speichern, ist für das Training anspruchsvoller Modelle unerlässlich. Data Scientists können auf diese Rohdaten für Aufgaben wie explorative Analysen, Datenbereinigung, Feature Engineering und die Erstellung hochwertiger Trainingsdaten zugreifen. Plattformen wie Ultralytics HUB können zum Beispiel Datensätze nutzen (die oft in Data Lakes kuratiert und verwaltet oder von dort bezogen werden), um benutzerdefinierte Modelle zu trainieren. Ultralytics YOLO für Aufgaben wie Objekterkennung, Bildsegmentierung oder Bildklassifizierung zu trainieren. Der Prozess umfasst oft eine umfangreiche Datenerfassung und -beschriftung, bevor die Daten überhaupt den See erreichen.

Anwendungen in der realen Welt

Data Lakes ermöglichen leistungsstarke KI/ML-Anwendungen, indem sie die notwendige Menge und Vielfalt an Daten bereitstellen. Hier sind zwei Beispiele:

Entwicklung von autonomen Fahrzeugen: Unternehmen, die autonome Fahrzeuge entwickeln, sammeln riesige Mengen an Sensordaten (Kamerabilder, LiDAR-Punktwolken, Radar, GPS) aus Testflotten. Diese Rohdaten werden in einem Data Lake gespeichert. Ingenieure und Datenwissenschaftler greifen dann auf diese Daten zu, um Deep-Learning-Modelle für Aufgaben wie Objekterkennungsmodelle zur Identifizierung von Fußgängern und anderen Fahrzeugen, Spurhaltung und Navigation zu trainieren und zu validieren. Schau dir an, wie Unternehmen wie Waymo die Technologie für selbstfahrende Fahrzeuge nutzen.
Aufbau personalisierter Empfehlungssysteme: E-Commerce-Plattformen und Streaming-Dienste nutzen Data Lakes, um verschiedene Daten zur Nutzerinteraktion zu speichern - Klicks, Betrachtungshistorie, Kaufdatensätze, Aktivitäten in sozialen Medien und demografische Daten der Nutzer. Diese Rohdaten werden mit Tools wie Apache Spark direkt auf dem Data Lake verarbeitet. Anhand dieser verarbeiteten Daten werden dann Modelle für maschinelles Lernen trainiert, um personalisierte Empfehlungssysteme zu erstellen, die das Nutzerengagement und den Umsatz steigern, wie es bei KI-gesteuerten Einzelhandelslösungen der Fall ist.

Vorteile und Herausforderungen

Vorteile:

Flexibilität: Speichert jeden Datentyp ohne vorherige Strukturierung.
Skalierbarkeit: Verarbeitet mühelos große Datenmengen.
Kosteneffizienz: Nutzt kostengünstige Speicheroptionen.
Datendemokratisierung: Macht Rohdaten für verschiedene Teams (Datenwissenschaftler, Analysten) zugänglich.
Zukunftssicher: Bewahrt die Rohdaten für zukünftige, unbekannte Anwendungsfälle.

Herausforderungen:

Data Governance: Die Sicherstellung von Datenqualität, Abstammung und Zugriffskontrolle kann komplex sein.
Sicherheit: Der Schutz sensibler Rohdaten erfordert robuste Maßnahmen zur Datensicherheit und zum Datenschutz.
Daten-Sumpf-Risiko: Ohne eine ordnungsgemäße Verwaltung und Metadaten kann ein Data Lake unübersichtlich und schwer effektiv zu nutzen werden (ein "Daten-Sumpf").
Komplexität: Erfordert spezielle Fähigkeiten für Management und Analyse. Effektive MLOps-Praktiken sind entscheidend.

Data Lakes bieten die nötige Skalierbarkeit und Flexibilität, um die wachsende Menge und Vielfalt an Daten zu verarbeiten, die für moderne KI-Lösungen erforderlich sind. Sie sind eine wichtige Komponente der Dateninfrastruktur, die fortschrittliche Analysen und Innovationen im Bereich des maschinellen Lernens unterstützt.

Datensee

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Flexible Unternehmenslizenzierungslösung für deine Innovation

Trainiere KI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Trainiere YOLO Modelle einfach mit Ultralytics HUB

Kernkonzepte

Data Lake Vs. Data Warehouse

Relevanz für KI und maschinelles Lernen

Anwendungen in der realen Welt

Vorteile und Herausforderungen

Mehr Blogs lesen

Werde Mitglied der Ultralytics Community

Datensee

Trainiere YOLO Modelle einfachmit Ultralytics HUB

Flexible Unternehmenslizenzierungslösung für deine Innovation

Trainiere KI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Trainiere YOLO Modelle einfach mit Ultralytics HUB

Kernkonzepte

Data Lake Vs. Data Warehouse

Relevanz für KI und maschinelles Lernen

Anwendungen in der realen Welt

Vorteile und Herausforderungen

Mehr Blogs lesen

Werde Mitglied der Ultralytics Community

Trainiere YOLO Modelle einfach
mit Ultralytics HUB