AI/MLのための合成データのパワーを解き放つ!データの不足、プライバシーの問題、コストを克服し、モデルのトレーニングとイノベーションを促進します。
合成データとは、実際の事象や測定値から直接収集されたものではなく、実世界のデータの統計的特性を模倣して人工的に生成されたデータを指す。人工知能(AI)や機械学習(ML)の分野では、合成データは実際の学習データの重要な代替または補足の役割を果たす。十分な実世界データの収集が困難で、コストが高く、時間がかかり、プライバシー上の懸念がある場合には、特に価値がある。この人工的に作成された情報は、モデルの訓練、システムのテスト、現実には稀であったり危険であったりするシナリオの探索に役立ちます。
合成データは、必要とされる複雑さと忠実度に応じて、さまざまな技術を用いて生成することができる:
合成データはAI開発にとっていくつかの利点がある:
コンピュータビジョンでは、さまざまな条件下(照明、天候、視点)で、物体検出や 画像分割などのタスクのモデルを学習するために合成画像が使用される。
合成データとデータ増強は、どちらもトレーニングデータの多様性と量を増やすことを目的としているが、両者は異なる概念である:
合成データは、全く見たことのないシナリオの例を作成したり、プライバシーの制約により実データが全く利用できない、あるいは利用できない場合にデータを生成するなど、オーグメンテーションでは対応できないギャップを解決することができる。しかし、合成データが実世界の複雑さを正確に反映することを保証することは依然として課題であり、注意深く管理しなければ、合成分布へのオーバーフィッティングのような問題につながる可能性がある。Ultralytics HUBのようなプラットフォームは、合成データを含む可能性のある多様なデータセットでのモデル学習をサポートします。