用語集

ノーマライゼーション

機械学習における正規化の威力をご覧ください!モデル学習を強化し、パフォーマンスを向上させ、ロバストなAIソリューションを実現する方法をご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

正規化は、機械学習(ML)やデータサイエンスで広く使用されている基本的なデータ前処理技術である。その主な目的は、数値データの特徴を、値の範囲の違いを歪めることなく、共通の標準的な範囲(多くの場合、0~1または-1~1)に再スケールすることです。このプロセスにより、すべての特徴がより均等にモデル学習に寄与するようになり、本来大きな値を持つ特徴(データセット内の給与など)が、小さな値を持つ特徴(経験年数など)に比べて結果に不釣り合いに影響するのを防ぐことができます。正規化は、ディープラーニング(DL)で使用される勾配降下ベースの手法や様々な最適化アルゴリズムなど、特徴のスケーリングに敏感なアルゴリズムにとって特に重要です。

ノーマライゼーションが重要な理由

実世界のデータセットには、スケールや単位が大きく異なる特徴が含まれていることが多い。例えば、顧客離れを予測するデータセットでは、「口座残高」は数百から数百万まで、「商品数」は1から10まであるかもしれない。正規化なしでは、サポートベクターマシン(SVM)やニューラルネットワーク(NN)のように、距離を計算したり勾配を使ったりするMLアルゴリズムは、単純にそのスケールによって、より大きな範囲の特徴をより重要であると誤って認識するかもしれません。正規化することで、各特徴の寄与がその大きさではなく、予測力に基づくことを保証し、競争の場を平準化します。これにより、学習中の収束が早くなり(エポック数の減少に見られる)、モデルの精度が向上し、より安定したロバストモデルになります。この安定性は Ultralytics YOLOのようなモデルを、物体検出や インスタンスのセグメンテーションなどのタスクでトレーニングする場合に有益であり、平均平均精度(mAP)のようなメトリクスを向上させる可能性があります。

一般的な正規化テクニック

データの再スケーリングにはいくつかの方法があり、それぞれ異なる状況に適している:

  • 最小-最大スケーリング:通常は[0, 1]です。次のように計算されます:(value - min) / (max - min)として計算されます。この方法は元の分布の形状を保持しますが、外れ値の影響を受けやすくなります。
  • Zスコアの標準化(Standard Scaling):平均が0、標準偏差が1になるように特徴を再スケーリングする:(値 - 平均値) / 標準偏差。Min-Maxスケーリングとは異なり、値を特定の範囲に束縛しないので、境界区間内の入力を必要とするアルゴリズムには不利かもしれませんが、外れ値の扱いが良くなります。Scikit-learn Preprocessing ドキュメントに、これらのメソッドやその他のメソッドに関する詳細な情報があります。
  • ロバスト・スケーリング:最小値/最大値や平均値/標準偏差の代わりに、四分位範囲(IQR)のような外れ値にロバストな統計量を使用する。データセットに有意な外れ値が含まれる場合に特に有効です。ロバスト・スケーリングの詳細

これらのテクニックの選択は、特定のデータセット(Ultralytics Datasetsにあるようなもの)と使用するMLアルゴリズムの要件に依存することが多い。アノテーションデータの前処理に関するガイドは、特定のタスクに関連する正規化のステップをカバーしていることが多い。

ノーマライゼーションvs.スタンダード化vs.バッチ・ノーマライゼーション

正規化を関連概念と区別することは重要だ:

  • 標準化:Zスコアの標準化と同じ意味で使われることが多いが、この技法は平均がゼロで分散が単位になるようにデータを変換する。正規化が一般的にデータを一定の範囲(例えば0から1)にスケーリングするのに対して、標準化は必ずしも特定の範囲に拘束することなく、データを平均値の中心に置き、標準偏差に基づいてスケーリングする。
  • バッチ正規化これは学習中のニューラルネットワークに適用される技術で、特に層または活性化層の入力に適用される。ミニバッチごとに前の活性化層の出力を正規化し、内部の共変量シフトの問題を軽減することで学習プロセスを安定化、高速化します。初期データセットに適用される前処理ステップである特徴正規化(Min-MaxまたはZスコア)とは異なり、バッチ正規化はネットワークアーキテクチャの一部であり、モデル学習中に動的に適応します。

正規化の応用

正規化は、さまざまな人工知能(AI)およびMLタスクのためにデータを準備するための、どこにでもあるステップである:

要約すると、正規化はデータの特徴を一貫性のある範囲にスケールする重要な前処理ステップであり、Ultralytics HUBのようなツールを使用して開発および訓練されたものを含む、多くの機械学習モデルの訓練プロセス、安定性、およびパフォーマンスを向上させます。これは、公正な特徴寄与を保証し、入力スケールに敏感なアルゴリズムに不可欠であり、より堅牢で正確なAIソリューションに貢献します。

すべて読む