用語集

ビッグデータ

AI/MLにおけるビッグデータの力をご覧ください！膨大なデータセットがどのように機械学習を促進するのか、処理のためのツール、そして実際のアプリケーションについて学びましょう。

ビッグデータとは、従来のデータ処理ツールでは容易に管理、処理、分析することができない、極めて大規模で複雑なデータセットを指す。一般的には「5つのV」によって定義される：Volume（膨大なデータ量）、Velocity（データ生成の高速性）、Variety（データの多様性）、Veracity（データの品質と正確性）、Value（データを意味のある結果に変える可能性）である。人工知能（AI）の文脈では、ビッグデータは洗練された機械学習（ML）モデルに動力を与える重要な燃料であり、学習、予測、複雑なタスクの実行をより高い精度で行うことを可能にする。

AIと機械学習におけるビッグデータの役割

ビッグデータはAIの進歩、特にディープラーニング（DL）分野の進歩の基礎となっている。畳み込みニューラルネットワーク（CNN）などのディープラーニング・モデルは、複雑なパターンや特徴を学習するために膨大なデータセットを必要とする。モデルがより多くの高品質なデータで訓練されればされるほど、未知のデータに対する汎化や正確な予測がより得意になる。これは特にコンピュータ・ビジョン（CV）タスクに当てはまり、物体の検出や画像のセグメンテーションといったタスクを確実に実行するためには、モデルが何百万もの画像から学習する必要がある。

ビッグデータの利用可能性は、Ultralytics YOLOのような最先端モデルの成功の重要な原動力となっている。COCOや ImageNetのような大規模なベンチマークデータセットでこれらのモデルをトレーニングすることで、高い精度とロバスト性を達成することができます。これらのデータセットの処理には、多くの場合、クラウドコンピューティングや GPUのような特殊なハードウェアを活用した強力なインフラストラクチャが必要です。

実際のAI/MLアプリケーション

自律走行車： 自動運転車は、カメラ、LiDAR、レーダーなどのセンサー群から毎日テラバイト単位のデータを生成している。この継続的なビッグデータの流れは、歩行者、他の車両、道路標識の識別などのタスクのための知覚モデルの訓練と検証に使用される。テスラのような企業は、継続的な学習とモデル展開のプロセスを通じて自律走行システムを常に改善するために、車両データを活用している。詳しくは、自動車ソリューションにおけるAIのページをご覧ください。
医療画像解析： ヘルスケアにおけるAIでは、ビッグデータは、多様な患者集団からのMRI、X線、CTスキャンなどの医療スキャンの膨大なデータセットを集約する。脳腫瘍データセットのようなデータセットで訓練されたAIモデルは、人間の目では見逃されかねない病気の微妙な兆候を検出することを学習することができる。これにより、放射線科医はより迅速で正確な診断を行うことができる。米国国立衛生研究所（NIH）のImaging Data Commonsは、医学研究のためのビッグデータを収容するプラットフォームの一例である。