用語集

合成データ

AI/MLのための合成データのパワーを解き放つ!データの不足、プライバシーの問題、コストを克服し、モデルのトレーニングとイノベーションを促進します。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

合成データとは、実際の事象や測定値から直接収集されたものではなく、現実世界のデータの統計的特性を模倣して人工的に生成された情報を指す。人工知能(AI)機械学習(ML)の分野では、合成データは実際の学習データの重要な代替または補足の役割を果たす。十分な実世界データを収集することが困難で、費用がかかり、時間がかかる場合(Data Collection and Annotation Guide)、あるいはデータのプライバシーに関する懸念がある場合には、特に価値がある。この人工的に作成された情報は、以下のようなモデルの学習に役立ちます。 Ultralytics YOLOのようなモデルを訓練し、システムをテストし、現実には稀であったり危険であったりするシナリオを探索するのに役立ちます。

合成データの作成方法

合成データ生成は、要求される複雑さと忠実度によって様々な手法を用いる。一般的なアプローチには次のようなものがある:

AIとコンピュータビジョンにおける重要性

合成データは、AIの開発やコンピューター・ビジョンにいくつかの大きな利点をもたらす:

  • データ不足の克服:実世界のデータが限られていたり、取得にコストがかかる場合に大量のデータを提供し、ロバストなモデルのトレーニングに役立てる(モデルトレーニングのヒント)。
  • データ・プライバシーの強化実世界の機密情報を含むことなく統計的特性を保持するデータを生成し、プライバシー規制への準拠を支援するとともに、差分プライバシーのような技術を可能にします。
  • バイアスの軽減: データセットのバイアスに対処し、AIにおける公平性を促進するために、十分に代表されていないグループやシナリオの表現を軽減または補強するように注意深く制御することができる。
  • エッジケースのカバー:現実には捉えにくい、稀な、あるいは危険なシナリオ(自律走行車の事故、稀な病状など)を表すデータの作成を可能にする。これによりモデルの汎化が向上する。
  • コストと時間の効率:多くの場合、実世界のデータを収集しラベル付けするよりも、安価かつ迅速に生成できる(Data Labeling Explained)。

コンピュータビジョンでは、物体検出画像セグメンテーション、多様な条件下での姿勢推定など、利用可能なデータセットでは見つけることが困難なタスクのモデルを学習するために、合成画像が頻繁に使用される。

実世界での応用

合成データは多くの産業で応用されている:

その他の用途としては、金融モデリング(AI in Finance)、小売(AI for Smarter Retail)、ロボット工学トレーニングなどがある。

合成データとデータ補強の比較

合成データとデータ増強はどちらもデータセットを強化することを目的としているが、両者は異なる概念である:

  • データの拡張: 既存の実データポイントに変換(回転、切り抜き、カラーシフトなど)を加え、わずかに修正したものを作成する。元のデータ分布に基づき、トレーニングセットの多様性を高める。Ultralytics モデルには、ビルトインのオーグメンテーション(Albumentations Integration)が組み込まれていることが多い。
  • 合成データ:シミュレーションやGANのような生成モデルを用いて、人工的に生成された全く新しいデータを指す。必ずしも特定の実際のデータポイントから始まるとは限らず、元のデータセットには全くないシナリオを表すこともある。

要するに、データ増強は既存データの分散を拡大し、合成データは全く新しいデータポイントやシナリオを作成することができ、Ultralytics HUBのようなプラットフォームを通じて管理されるAIモデルのトレーニングにおいて、実データを補足したり、あるいは置き換えたりする強力な方法を提供する。

すべて読む