AI/MLのための合成データのパワーを解き放つ!データの不足、プライバシーの問題、コストを克服し、モデルのトレーニングとイノベーションを促進します。
合成データとは、実際の事象や測定値から直接収集されたものではなく、現実世界のデータの統計的特性を模倣して人工的に生成された情報を指す。人工知能(AI)や機械学習(ML)の分野では、合成データは実際の学習データの重要な代替または補足の役割を果たす。十分な実世界データを収集することが困難で、費用がかかり、時間がかかる場合(Data Collection and Annotation Guide)、あるいはデータのプライバシーに関する懸念がある場合には、特に価値がある。この人工的に作成された情報は、以下のようなモデルの学習に役立ちます。 Ultralytics YOLOのようなモデルを訓練し、システムをテストし、現実には稀であったり危険であったりするシナリオを探索するのに役立ちます。
合成データ生成は、要求される複雑さと忠実度によって様々な手法を用いる。一般的なアプローチには次のようなものがある:
合成データは、AIの開発やコンピューター・ビジョンにいくつかの大きな利点をもたらす:
コンピュータビジョンでは、物体検出、画像セグメンテーション、多様な条件下での姿勢推定など、利用可能なデータセットでは見つけることが困難なタスクのモデルを学習するために、合成画像が頻繁に使用される。
合成データは多くの産業で応用されている:
その他の用途としては、金融モデリング(AI in Finance)、小売(AI for Smarter Retail)、ロボット工学トレーニングなどがある。
合成データとデータ増強はどちらもデータセットを強化することを目的としているが、両者は異なる概念である:
要するに、データ増強は既存データの分散を拡大し、合成データは全く新しいデータポイントやシナリオを作成することができ、Ultralytics HUBのようなプラットフォームを通じて管理されるAIモデルのトレーニングにおいて、実データを補足したり、あるいは置き換えたりする強力な方法を提供する。