用語集

データ補強

データ増強で機械学習モデルを強化します。精度を高め、オーバーフィッティングを減らし、ロバスト性を向上させるテクニックを発見してください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

データ増強は、機械学習(ML)において学習データセットのサイズと多様性を人為的に拡張するために用いられる重要なテクニックである。これは、既存のデータ点を修正したものを作成したり、それに基づいて新しい合成例を生成したりすることで達成される。主な目的は、MLモデルの性能、汎化能力、ロバスト性を向上させることであり、特にコンピュータビジョン(CV)のような、大規模で多様なデータセットを取得することがコストと時間のかかる領域では重要である。以下のようなモデルをトレーニングすることで Ultralytics YOLOのようなモデルを拡張データ上で学習させることで、開発者は、実世界のシナリオで遭遇する幅広いバリエーションに対応できるように学習させることができ、未知のデータに対する精度の向上につながります。

データ補強の仕組み

データ補強の基本的な考え方は、元のデータサンプルに様々な変換を加え、新しく妥当な学習例を生成することである。これらの変換は、推論中にモデルが遭遇する可能性のあるバリエーションを反映することが理想的である。コンピュータビジョンの主要な焦点である画像データの場合、一般的なオーグメンテーション技術には以下のようなものがある:

  • 幾何学的変形:回転、拡大縮小(ズームインまたはズームアウト)、平行移動(シフト)、シアリング、反転(水平または垂直)など、画像の空間特性を変更する。
  • 色空間の変換:明るさ、コントラスト、彩度、色相の調整を含む色特性の変更。これにより、照明条件やカメラのばらつきの影響を受けにくくなる。
  • ノイズの追加:センサーノイズや不完全な画質をシミュレートするためにランダムなノイズ(ガウスノイズなど)を導入すること。
  • ランダム消去/切り取り:画像のランダムな矩形領域をマスキングすることで、モデルがオブジェクトの異なる部分にフォーカスするように促し、オクルージョンに対するロバスト性を向上させる。
  • 画像を混合する:複数の画像や画像の一部を組み合わせること。Mixup(2つの画像とそのラベルの間を補間する)やCutMix(1つの画像から別の画像にパッチを貼り付ける)のようなテクニックは、モデルにあまりクリーンでない例から学習させる。

CVで多用される一方で、オーグメンテーション技術は他の分野でも応用されている。例えば、自然言語処理(NLP)では、同義語の置換、逆翻訳(テキストを別の言語に翻訳して戻す)、単語のランダムな挿入/削除などの手法でテキストデータを補強することができる。

重要性とメリット

データ増強は、いくつかの理由からMLワークフローの基本的な部分である:

  • モデルの汎化の向上:モデルをより多様な例にさらすことで、オーグメンテーションは、特定の訓練例を記憶するのではなく、基本的なパターンを学習するのに役立ち、新しいデータに対してより良いパフォーマンスをもたらします。
  • オーバーフィッティングの低減:オーバーフィッティングは、モデルが訓練データ上ではうまく機能するが、未知のデータ上ではうまく機能しない場合に発生する。オーグメンテーションは正則化技術として機能し、モデルが限られた元のデータセットにオーバーフィットしにくくします。
  • ロバスト性の向上:増強されたデータでトレーニングされたモデルは、通常、照明、視点、スケール、部分的なオクルージョンの変化など、入力のバリエーションに強くなります。
  • データ収集ニーズの削減:開発者は、より少ない初期データセットでより良い結果を得ることができ、データ収集とラベリングにかかる時間とリソースを節約できます。モデルトレーニングのヒントについては、ドキュメントをご覧ください。

テクニックとツール

データ補強の実装は、様々なライブラリやフレームワークによって容易になる。コンピュータビジョンのタスクでは、以下のようなツールがよく使われている:

Ultralytics モデルには、トレーニング中にいくつかの効果的な増強技術が組み込まれています。ユーザーはUltralytics HUBのようなプラットフォームを通じてデータセットを管理し、これらの機能を活用することができます。

実世界での応用

データ拡張は、多くのAI領域で広く適用されている:

  1. ヘルスケアにおけるAI スキャン画像から腫瘍を検出するような医療画像分析では、プライバシーへの懸念や特定の状態の希少性から、データセットが制限されることが多い。回転、スケーリング、明るさの調整などの補強技術は、多様な学習例を作成し、撮影機器や患者の位置のばらつきにもかかわらず、モデルが確実に異常を検出するのに役立ちます。これにより、医用画像解析システムの診断精度が向上します。
  2. 自動車のためのAI 自律走行車のためのロバストな物体検出システムの開発には、多様な走行シナリオをカバーするトレーニングデータが必要です。増強は、異なる気象条件(例えば、合成雨や霧を追加する)、照明の変化(昼、夜、夜明け/夕暮れ)、オクルージョン(例えば、部分的に隠れた歩行者や車両)をシミュレートし、予測不可能な実環境において知覚システムをより信頼性の高いものにします。
  3. 農業におけるAI作物の病気検出や果実の計数などの作業では、オーグメンテーションによって、天候や時間帯による照明の変化、異なる成長段階、ドローンや地上ロボットからのカメラアングルをシミュレートすることができ、より強固な精密農業ソリューションにつながる。
  4. 製造業におけるAI品質管理では、オーグメンテーションによって製品の向き、照明、小さな欠陥のばらつきを作り出し、生産ラインでより信頼性の高い異常検知のためのモデルを学習させることができる。

データ補強と合成データの比較

データ増強と合成データ生成はどちらもトレーニングデータセットを強化することを目的としているが、両者は根本的に異なる:

  • データ補強:変換によって既存の実データを変更する。観測されたデータ点周辺の分散を増加させるが、一般的に元のデータにはない全く新しいシナリオを導入することはない。
  • 合成データ:多くの場合、シミュレーション、コンピュータグラフィックス、またはGAN(Generative Adversarial Networks)や拡散モデルのような生成モデルを使用する。合成データは、現実世界では稀であったり、不可能であったりするシナリオを表現することができ、オーグメンテーションでは対応できないギャップを埋める可能性がある。

実際には、データ補強の方が、忠実度の高い合成データを生成するよりも実装が簡単で、計算コストも安いことが多い。どちらの手法も価値があり、要求の厳しいAIアプリケーションのために、非常に多様でロバストなトレーニングデータセットを作成するために併用されることもある。

すべて読む