用語集

データレイク

データレイクとは何か、その特徴、メリット、AI/MLにおける役割についてご紹介します。データレイクがビッグデータ管理とアナリティクスをどのように変革するかを学びます。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

データレイクは、膨大な量の生データを、取り込み時に定義済みの構造やスキーマを課すことなく、そのままの形式で保存できるように設計された一元的なリポジトリです。従来のデータベースやデータウェアハウスとは異なり、データレイクは構造化データ(テーブルなど)、半構造化データ(JSONやXMLなど)、非構造化データ(画像、動画、音声、テキスト文書、センサーログなど)を並べて保存することができる。この柔軟性により、データレイクは、特に人工知能(AI)や機械学習(ML)の分野で、最新のデータ分析にとって非常に貴重な資産となる。

コア・コンセプト

データレイクの基本的な考え方は、ビッグデータのためのコスト効率と拡張性に優れたストレージソリューションを提供することである。主な特徴は以下の通り:

  • 生データの保存:データは取り込まれ、加工されていないオリジナルの形で保存される。
  • 多様なデータタイプ:包括的な分析や、コンピュータビジョンで使用されるような多様なAIモデルのトレーニングに不可欠な、様々なフォーマットに対応。
  • 拡張性:通常、Amazon S3や Google Cloud Storageのようなクラウドストレージプラットフォーム上に構築されるため、事実上無限の拡張が可能。
  • Schema-on-Read(スキーマ・オン・リード):構造は、データを保存するとき(スキーマ・オン・ライト)ではなく、分析のためにデータを読み込んだりクエリを実行したりするときにのみ適用される。これは、データレイクに関するAWSのドキュメントで説明されているように、探索や多様な分析ニーズに対する柔軟性を提供する。

データレイクとデータウェアハウス

データレイクとデータウェアハウスはどちらもデータを保存するものだが、その目的は異なり、データの扱い方も異なる。

  • データウェアハウス:特定のビジネス・インテリジェンスやレポーティング・タスクのためにクリーニングされ変換された、構造化され処理されたデータを格納する。事前に定義されたスキーマ(schema-on-write)を使用する。データウェアハウスは、分類された書籍の図書館のようなものです。IBMのデータ・ウェアハウジングの概念について、さらに詳しくご覧ください。
  • データレイク:あらゆる種類のフィルタリングされていない生のデータを保存する。分析時に構造が適用される(スキーマ・オン・リード)ため、大規模で多様なデータセットを必要とするデータ探索、データサイエンス、機械学習(ML)モデルのトレーニングに最適。それはまるで、探索されるのを待っている膨大な生の情報のプールのようだ。

AIと機械学習における関連性

データレイクは、多くのAIやMLのワークフローの基盤となっている。特にディープラーニング(DL)においては、大量の多様な生データを保存する能力は、高度なモデルをトレーニングするために不可欠である。データサイエンティストは、学習パイプラインに投入する前に、データ前処理フィーチャーエンジニアリング、探索的分析などのタスクのために生データにアクセスできる。Ultralytics HUBのようなプラットフォームは、データレイクから管理または取得したデータセットを活用して、次のようなモデルをトレーニングすることができます。 Ultralytics YOLOのようなモデルを学習させることができます。包括的なデータセットへのアクセスは、モデルのパフォーマンスにとって非常に重要です。

実世界での応用

  1. 自律走行車の開発: 自律走行車を開発する企業は、テスト走行中にセンサー(カメラ、LiDAR、レーダー、GPS)からペタバイト単位のデータを収集する。この生のマルチフォーマットデータはデータレイクにダンプされる。MLエンジニアはこのデータにアクセスし、歩行者や他の車両を識別するための物体検出モデルなど、安全なナビゲーションに不可欠な知覚モデルの訓練と検証を行う。
  2. パーソナライズされた顧客体験:Eコマースやストリーミング・プラットフォームは、膨大な量のユーザー・インタラクション・データ(クリック、購入履歴、視聴パターン、ソーシャルメディア・フィード、デバイス・ログ)をデータレイクに取り込む。データ・サイエンティストは、Apache Sparkのようなツールを使ってこの多様なデータを処理し、レコメンデーション・システム用のMLモデルを構築して、ユーザーの好みを予測し、パーソナライズされたコンテンツや商品提案をリアルタイムで提供する。

データレイクは、最新のAIソリューションに必要なデータの量と種類の増加に対応するために必要な規模と柔軟性を提供する。

すべて読む