用語集

データ補強

データ増強でモデルのパフォーマンスを向上。汎化を強化し、オーバーフィットを減らし、データセットを簡単に拡張します。強力なテクニックを発見してください!

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

データ増強とは、機械学習において、新たなデータを収集することなく学習データの多様性を高めるために用いられる手法である。既存のデータポイントを修正したものを作成することで、オーバーフィッティングを減らし、汎化を強化することで、モデルのパフォーマンスを向上させる。このような修正には、回転、拡大縮小、平行移動、反転、色の変更などの変換が含まれ、画像、テキスト、その他の形式のデータに適用できる。

重要性とメリット

ロバストな機械学習モデルの開発において、データの増強は重要な役割を果たす。それは以下のことに役立つ:

  • モデルの汎化の強化:モデルを様々なバージョンの訓練データにさらすことで、データ増強はモデルがより汎化された特徴を学習するのを助け、未知のデータに対するパフォーマンスを向上させる。
  • オーバーフィッティングの低減:多様なデータを追加することで、モデルが学習データを記憶する傾向が弱まり、オーバーフィッティングが最小限に抑えられる。
  • 限られたデータの拡張:元のデータが限られているアプリケーションの場合、オーグメンテーションはデータ収集の労力を増やすことなくデータセットサイズを拡大する効率的な方法である。

データ補強のテクニック

データ補強には、以下のようないくつかのテクニックを用いることができる:

  • 幾何学的変形:回転、反転、切り抜き、拡大縮小などの調整により、画像の内容を保持したまま向きやサイズを変更できます。
  • 色空間の変換:明るさ、コントラスト、彩度、色相を変更することで、モデルを照明条件に左右されなくすることができる。
  • ランダム消去:ランダムにマスキングすることで、画像を部分的に隠蔽し、モデルが画像コンテクスト全体に集中するよう促す。
  • MixUp:データセット内の2つの画像とそのラベルを組み合わせ、組み合わせた特徴から学習するようモデルに促す

実世界でのAI/ML応用

データ補強は、以下のような様々な分野で広く使われている:

  • ヘルスケアMRIスキャンから病気を診断するような医療画像アプリケーションは、ヘルスケアにおけるラベル付きデータAIの限られた可用性に対処することで、データ増強から大きな恩恵を受ける。
  • 自動運転車:自律走行車には、道路上で遭遇する無数の状況に対応するための多様なトレーニングデータが必要です。データ補強は、さまざまな照明条件をシミュレートし、自動運転のAIを展望するのに役立ちます。

データ補強を関連概念と区別する

  • データ増強と合成データ生成の比較:一方、合成データ生成は、GAN(Generative Adversarial Networks:生成的逆数ネットワーク)のようなモデルを用いて、AIにおけるGANを発見し、まったく新しいデータインスタンスを生成する。
  • データ増強と転移学習:転移学習は、事前に訓練されたモデルを新しいタスクに活用することに重点を置いている。一方、データ増強は、学習データ自体の多様性を豊かにする

ツールとテクノロジー

一般的なライブラリやフレームワークは、AI/MLプロジェクトにおけるデータ補強をサポートしている:

データ補強の実施

データ増強の実装は、Ultralytics HUBのようなプラットフォームを使って行うことができ、集中的な手作業によるコーディング作業を行うことなく、エンリッチされたデータセットを生成するための直感的なツールによってプロセスを簡素化することができる。

結論として、データ補強は最新のAI/MLワークフローにおいて不可欠な技術であり、より正確で効果的なモデルの構築に貢献する。データが乏しかったり、収集にコストがかかったりするシナリオでは特に不可欠であり、さまざまな分野にわたるAIソリューションの開発を可能にし、その信頼性とパフォーマンスを向上させる。

すべて読む