用語集

合成データ

AI/MLのための合成データのパワーを解き放つ!データの不足、プライバシーの問題、コストを克服し、モデルのトレーニングとイノベーションを促進します。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

合成データとは、実際の事象や測定値から直接収集されたものではなく、実世界のデータの統計的特性を模倣して人工的に生成されたデータを指す。人工知能(AI)機械学習(ML)の分野では、合成データは実際の学習データの重要な代替または補足の役割を果たす。十分な実世界データの収集が困難で、コストが高く、時間がかかり、プライバシー上の懸念がある場合には、特に価値がある。この人工的に作成された情報は、モデルの訓練、システムのテスト、現実には稀であったり危険であったりするシナリオの探索に役立ちます。

合成データの作成方法

合成データは、必要とされる複雑さと忠実度に応じて、さまざまな技術を用いて生成することができる:

  • 統計的モデリング:実際のデータの特性に合った分布からのサンプリングのような統計的手法を使用する。
  • シミュレーション:あらかじめ定義されたルールや相互作用に基づいてデータを生成するために、仮想環境やモデルを作成すること。ロボット工学や自律システムなどの分野で一般的。NVIDIA Omniverseのようなプラットフォームは、現実的なシミュレーションを生成するためによく使用されます。
  • 生成モデル: 生成アドバーサリアル・ネットワーク(GAN)や変分オートエンコーダ(VAE)などのディープラーニング(DL)技術を採用し、実データの根本的なパターンを学習し、類似した新しいデータ点を生成する。オリジナルのGAN論文は、このための強力なフレームワークを紹介した。

AIとコンピュータビジョンにおける重要性

合成データはAI開発にとっていくつかの利点がある:

  • データ不足の克服:以下のような複雑なモデルのトレーニングに必要な大規模なデータセットを提供します。 Ultralytics YOLOのような複雑なモデルの学習に必要な大規模なデータセットを提供します。
  • データ・プライバシーの強化:ヘルスケアや金融などの分野で重要な、実世界の機密情報を公開することなくモデル学習を可能にする。差分プライバシーのような概念を取り入れることもある。
  • エッジケースのカバー:現実世界では捉えることが困難な、稀な、あるいは重要なシナリオ(自動運転車の緊急事態など)のデータ作成が可能。
  • バイアスの軽減:バランスの取れたデータセットを生成することで、データセットのバイアスを軽減できる可能性があるが、新たなバイアスを持ち込まないように注意する必要がある。
  • コストと時間の効率:合成データの生成は、実世界の大規模なデータ収集やアノテーションよりも迅速かつ低コストで行うことができる。

コンピュータビジョンでは、さまざまな条件下(照明、天候、視点)で、物体検出や 画像分割などのタスクのモデルを学習するために合成画像が使用される。

実世界での応用

  1. 自律走行車 自動運転車用の知覚システムのトレーニングには、多様な運転条件や稀な事象(事故や異常な障害物など)を網羅した膨大なデータが必要です。各社はUnity Simulationのようなシミュレーターや、Waymoのシミュレーション環境のような独自のプラットフォームを使用して、現実的な合成運転データを生成し、車載AIのモデルのロバスト性と安全性を向上させている。
  2. ヘルスケア患者のプライバシーに関する規制(HIPAAなど)は、実際の医療データの使用を制限している。合成データにより、研究者や開発者は、患者の機密性を損なうことなく、医療画像分析腫瘍検出など)や電子カルテ分析のためのAIモデルを訓練することができる。Syntheaのようなプロジェクトは、ヘルスケア分野のAI研究のために合成患者記録を生成します。

合成データとデータ補強の比較

合成データとデータ増強は、どちらもトレーニングデータの多様性と量を増やすことを目的としているが、両者は異なる概念である:

  • データの拡張: 既存の実データに変換(回転、拡大縮小、切り抜き、カラーシフトなど)を施し、わずかに修正したものを作成する。データセットを拡張するが、実データの初期セットを持っている必要がある。この目的のために、Albumentationsのようなツールを統合することができる
  • 合成データ:モデルやシミュレーションを使用し、必ずしも実際の例から始めることなく、ゼロからまったく新しいデータポイントを作成すること(ただし、モデルは通常、最初に実際のデータでトレーニングされる)。

合成データは、全く見たことのないシナリオの例を作成したり、プライバシーの制約により実データが全く利用できない、あるいは利用できない場合にデータを生成するなど、オーグメンテーションでは対応できないギャップを解決することができる。しかし、合成データが実世界の複雑さを正確に反映することを保証することは依然として課題であり、注意深く管理しなければ、合成分布へのオーバーフィッティングのような問題につながる可能性がある。Ultralytics HUBのようなプラットフォームは、合成データを含む可能性のある多様なデータセットでのモデル学習をサポートします。

すべて読む