用語集

ビッグデータ

AI/MLにおけるビッグデータの力をご覧ください!膨大なデータセットがどのように機械学習を促進するのか、処理のためのツール、そして実際のアプリケーションについて学びましょう。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

ビッグデータとは、高速で生成され、従来のデータ処理ソフトウェアの能力を超える、極めて大規模で多様なデータセットを指す。データの量だけでなく、その複雑さや、意味のある洞察を引き出すために分析するスピードも重要である。ビッグデータを理解することは、人工知能(AI)の時代において極めて重要である。これらの膨大なデータセットは、強力な機械学習(ML)や深層学習(DL)モデルをトレーニングするための燃料となるからだ。

ビッグデータの特徴 (The Vs)

ビッグデータは、一般に「Vs」として知られるいくつかの重要な特性によって特徴付けられることが多い:

  • ボリューム:テラバイト、ペタバイト、エクサバイトといった単位で計測されることが多い。このようなデータ量を扱うには、スケーラブルなストレージと処理インフラが必要で、多くの場合、クラウド・コンピューティング・ソリューションを活用します。例えば、IoTデバイスからのセンサー・データや大規模ウェブサイトからのユーザー・アクティビティ・ログなどがある。
  • 速度:これは、新しいデータが生成され、処理する必要があるスピードを表す。多くのアプリケーションは、金融市場データやソーシャルメディア・ストリームの処理など、リアルタイムの推論や分析を必要とする。Apache Kafkaのようなテクノロジーは、高速データストリームの処理によく使用されます。
  • 多様性:ビッグデータには、構造化データ(データベースなど)、半構造化データ(JSONXML)、非構造化データ(テキスト文書、電子メール、画像、ビデオなど)など、さまざまな形態がある。このような多様性は、保存、処理、分析に課題をもたらす。コンピュータ・ビジョンと 自然言語処理(NLP)のタスクは、主に非構造化データを扱う。
  • 真実性:データの品質、正確性、信頼性に関わる。ビッグデータは多くの場合、雑然としていたり、不完全であったり、一貫性がなかったりするため、分析やモデル学習に確実に使用する前に、データのクリーニングや 前処理が必要となる。データの信頼性を確保することは、信頼できるAIシステムを構築する上で非常に重要である。
  • 価値最終的にビッグデータを収集・分析する目的は、意思決定やプロセスの最適化、新しい製品やサービスの創造に役立つ価値ある知見を抽出することである。そのためには、高度なアナリティクスやML技術を適用して、隠れたパターンや相関関係を明らかにする必要がある。

AIと機械学習における関連性

ビッグデータは、現代のAIとMLの成功の基本である。大規模で多様なデータセットにより、モデル、特にディープ・ニューラル・ネットワークは複雑なパターンを学習し、より高い精度を達成することができる。次のような高度なモデルをトレーニングすることができます。 Ultralytics YOLOのような洗練されたモデルを、物体検出などのタスクのためにトレーニングするには、多くの場合、ラベル付けされた膨大な量の画像やビデオデータが必要です。これらのデータセットを処理するには、GPUのような強力なハードウェアとApache Sparkのような分散コンピューティングフレームワーク、または大規模なモデルトレーニングを管理するためのUltralytics HUBのようなツールと統合されたプラットフォームが必要です。

実際のAI/MLアプリケーション

ビッグデータは、様々な業界においてAIを駆使した数多くのアプリケーションを後押ししている:

  1. パーソナライズされたレコメンデーションシステム:ネットフリックスのようなストリーミング・サービスやアマゾンのようなeコマース大手は、MLアルゴリズムを使ってユーザーとのやり取り(視聴履歴、購入パターン、クリック数)の膨大なデータセットを分析している。これにより、関連するコンテンツや商品を提案する高度な推薦システムを構築し、ユーザー体験を向上させ、エンゲージメントを促進することができる。これらのシステムの背後にある研究の一部は、Netflix Researchで調べることができる。
  2. 自律走行: 自律走行車は、センサー(カメラ、LiDAR、レーダー)からの膨大なデータストリームをリアルタイムで処理することに依存している。このビッグデータは、物体検出、車線維持、ナビゲーションなどの重要なタスクのためのディープラーニング・モデルの学習に使用され、車両が環境を認識し、安全に反応できるようにする。自動運転車のAI開発は、この複雑なデータの管理と活用に大きく依存している。

ビッグデータと従来のデータ

従来のデータ分析がリレーショナル・データベースに格納された構造化データを扱うのに対し、ビッグデータはより大量の、より高速な、より多様なデータを含み、多くの場合、Hadoopエコシステムのような専門的なツールや技術を必要とする。機械学習アルゴリズムは、従来のデータがより単純な統計手法やビジネスインテリジェンスツールを使って分析されるのに対し、ビッグデータから洞察を引き出すために不可欠である。分散システムやクラウドプラットフォームを含むことが多いビッグデータに必要なインフラも、従来のデータウェアハウスとは大きく異なります。

すべて読む