用語集

データレイク

データレイクとは何か、その特徴、メリット、AI/MLにおける役割についてご紹介します。データレイクがビッグデータ管理とアナリティクスをどのように変革するかを学びます。

データレイクは、構造化データ、半構造化データ、非構造化データをあらゆる規模で保存できる一元的なリポジトリです。あらかじめ定義された処理済みのフォーマットでデータを保存する従来のデータウェアハウスとは異なり、データレイクは膨大な量の生データを必要な時までそのままのフォーマットで保存します。人工知能(AI)や機械学習(ML)にとって、このアーキテクチャーは非常に強力である。なぜなら、データサイエンティストに柔軟で膨大なオリジナルデータのプールを提供し、複雑なモデルのトレーニング、探索的分析の実行、初期スキーマに制約されない新しいパターンの発見に最適だからだ。

AIと機械学習におけるデータレイクの仕組み

典型的なAIワークフローでは、データレイクはすべての潜在的データソースの一次ソースとして機能する。このプロセスでは、ユーザーログ、ソーシャルメディアフィード、IoTセンサーの読み取り値、画像、動画など、さまざまなソースからの生データがデータレイクにロードされる。このデータは、変更されていないオリジナルの状態で保存される。新しいコンピューター・ビジョン(CV)モデルのトレーニングなどのプロジェクトが始まると、エンジニアはレイクにアクセスして関連するデータのサブセットを抽出することができる。この「スキーマ・オン・リード」アプローチは、インジェスト時ではなく、データ分析やデータの前処理段階で構造が適用されることを意味する。この柔軟性は、モデルの進化に伴ってデータ要件が変化する可能性のある反復的なML開発には不可欠である。AWSや Google Cloudのような主要なクラウド・コンピューティング・プロバイダーは、データレイクの構築と管理のための堅牢なサービスを提供している。

実際のAI/MLアプリケーション

データレイクは、多様で膨大なデータセットに依存する大規模なAIソリューションを開発するための基盤である。

  1. 自律走行車の開発:自動運転車のフリートは、LiDARポイントクラウド、高解像度ビデオ、レーダー測定値など、毎日テラバイトの生センサーデータを生成する。このビッグデータはデータレイクにストリーミングされる。エンジニアや研究者は後でこの膨大なレポジトリを照会し、夜間に歩行者が不意に道路を横断しているような稀な、あるいは困難なシナリオを見つけ、モデルのトレーニングやシミュレーションに使用することができる。これにより、物体検出のようなタスクの知覚モデルの継続的な改善が可能になり、エッジケースに対するロバスト性が確保されます。このようなワークフローの管理には、Databricksのようなプラットフォームがよく使用されます。
  2. 医療画像分析病院や研究機関では、さまざまな機器からさまざまな形式の医療画像(MRI、X線、CTスキャン)を収集している。このデータをデータレイクに一元化することで、研究開発のための豊富で多様なデータセットを作成できる。データサイエンティストはこの生の画像データにアクセスし、例えば脳腫瘍データセットのようなコレクションでYOLOモデルをトレーニングすることで、診断AIモデルを開発することができる。生データを保存することで、前処理されたフォーマットでは失われる可能性のある重要な詳細が保存され、ヘルスケアソリューションにおけるより正確なAIをサポートします。

関連概念との区別

データレイクを他のデータストレージパラダイムと区別することは重要である。

  • データウェアハウスとデータレイク:主な違いはデータ構造と目的にある。データウェアハウスは、特定の目的(通常はビジネスアナリティクス)のために処理された、構造化されフィルタリングされたデータを保存します。対照的に、データレイクは、あらゆるタイプの(構造化、半構造化、非構造化)生の、フィルタリングされていないデータを、事前に定義されたスキーマなしで保存します。このため、データレイクは機械学習の探索的性質により適している。
  • データベースとデータレイク従来のデータベース、特にSQLのようなリレーショナルデータベースでは、データを書き込む前に、厳密に定義されたスキーマに適合させる必要がある。これは "スキーマ・オン・ライト "として知られている。データレイクは "スキーマ・オン・リード "のアプローチを採用し、画像、テキスト、センサーログなど、AIで一般的な多様なデータ形式を扱うために必要な柔軟性を提供する。データベースが高速なトランザクション・クエリ用に最適化されているのに対し、データレイクはApache Sparkのようなツールを使った大規模な分析処理用に構築されている。
  • データマイニングとデータレイク:データレイクはストレージリポジトリである。一方、データマイニングは大規模なデータセットからパターンや洞察を発見するプロセスです。データマイニングの技術は、データレイクに格納されたデータに適用される。

メリットと課題

メリット

  • 柔軟性:事前に構造化することなく、あらゆるソースからあらゆるデータ型を格納。
  • スケーラビリティ: Apache Hadoopのような分散ストレージシステムを使用することで、テラバイトからペタバイトまでの大容量データを簡単に処理できます。
  • 費用対効果:低コストの汎用ストレージを活用することで、膨大な量のデータを手頃な価格で保持できる。
  • データの民主化:様々なチーム(データサイエンティスト、アナリスト、MLエンジニア)が生データにアクセスできるようにし、レポートからディープラーニングまで、様々なユースケースに対応。
  • 将来への備え:生データを無期限に保存し、現在は存在しない新しいツールや技術による将来の分析を可能にする。

課題だ:

  • データガバナンスデータ品質、リネージ、アクセス制御の確保は複雑です。
  • セキュリティ機密性の高い生データを保護するには、強固なデータ・セキュリティと データ・プライバシー対策が必要です。
  • データ沼のリスク:適切な管理、メタデータ、カタログ化が行われないと、データレイクは無秩序になり、効果的な利用が困難になる。
  • 複雑さ:管理と分析に専門的なスキルが必要。効果的なMLOpsのプラクティスは、データの取り込みからモデルのデプロイまでのライフサイクルを管理するために極めて重要である。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク