用語集

ノーマライゼーション

正規化によって、データを拡張し、トレーニング速度を向上させ、アプリケーション全体で最適なパフォーマンスを確保することで、AIおよびMLモデルをどのように強化するかを学びます。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

正規化は、機械学習(ML)や人工知能(AI)における基本的な前処理技術であり、入力データの一貫性と適切なスケーリングを確保するために不可欠です。データを標準的な形式や範囲に変換することで、学習時の収束率を向上させ、偏った予測の可能性を減らすことで、モデルの効率的な学習を支援します。すべての特徴が等しく寄与するようにすることで、正規化は最適なモデル性能を達成するために不可欠です。

ノーマライゼーションが重要な理由

機械学習では、データはしばしば様々なソースから得られ、多様な範囲、単位、分布を示すことがある。例えば、住宅価格を予測するデータセットでは、面積のような特徴は数千に及ぶかもしれないが、ベッドルームの数は1から10までしかないかもしれない。正規化を行わないと、勾配降下のようなアルゴリズムが収束するのに苦労する可能性がある。ある特徴のスケールが他の特徴を支配してしまい、パフォーマンスが低下する可能性があるからだ。

ノーマライゼーションはそれを保証する:

  • フィーチャーは同じようなスケールであるため、1つのフィーチャーがモデルに不釣り合いな影響を与えることはない。
  • 勾配降下のような最適化アルゴリズムがより効率的に収束するのを助けることで、トレーニングはより速く、より安定します。
  • 特徴量のスケールを変えることによって生じるバイアスを避けることで、モデルはよりよく一般化される。

一般的なテクニック

  • 最小-最大スケーリング:データを固定範囲(多くの場合[0,1])に変換し、値間の相対距離を保持する。これはK-Nearest Neighbors (KNN)のような距離メトリクスに依存するアルゴリズムに特に有効です。
  • Zスコア正規化(標準化):この方法は、分布がさまざまなデータセットに対して特に効果的である。
  • 10進スケーリング:データを10の累乗で割り、元の構造を維持したまま大きさを縮小する。

画像データを含むタスクでは、バッチ正規化のようなテクニックがトレーニング中に一般的に使用され、レイヤー間のアクティベーションを標準化し、収束を改善し、バニシンググラデーションのような問題を回避する。

AIとMLの応用

正規化は、様々なMLやAIのアプリケーションで重要な役割を果たす:

  1. ディープラーニング
    ニューラルネットワークでは、正規化によって一貫した入力データ分布が確保され、学習性能が向上する。例えば、バッチ正規化は、中間出力を正規化することで学習を安定させるために、畳み込みニューラルネットワーク(CNN)で広く適用されています。

  2. 自然言語処理(NLP)
    NLPタスクでは、正規化には、テキストを小文字に変換したり、句読点を取り除いたりして、入力データの均一性を確保するような、テキストの前処理が含まれることがある。これは特にTransformersや GPTモデルのようなモデルに有用です。

  3. Computer Vision (CV)
    画像データセットの場合、ピクセル値はしばしば[0,1]または[-1,1]の範囲に正規化され、画像分類や 物体検出のようなタスクで画像間の一貫性を確保します。ビジョンタスク用のデータセットの準備については、Ultralytics'Dataset Guideをご覧ください。

実例

例1:メディカル・イメージング

ヘルスケアでは、正規化によってX線やMRIのような医療画像の画素強度値の一貫性が保証されます。これは、腫瘍検出などのタスクにおいて Ultralytics YOLO腫瘍検出のようなタスクでは、明るさやコントラストのばらつきがモデルをミスリードする可能性があります。

例2:自律走行車

自動運転車では、LiDAR、カメラ、GPSからのセンサーデータは、正確なリアルタイムの意思決定を確実にするために正規化する必要があります。正規化は、深度マップやRGB画像などの異なるソースからのデータを整列させ、アルゴリズムが環境を効果的に解釈できるようにします。AIが自律走行車にどのような変革をもたらすかをご覧ください。

関連概念との主な違い

ノーマライゼーションは、しばしば次のような関連技術と混同される:

  • 標準化:正規化がデータを特定の範囲にスケーリングするのに対して、標準化はデータを平均値0を中心に、単位分散でスケーリングすることに重点を置いています。より深く理解するために、データの前処理技術についてさらに学びましょう。
  • 正則化:入力データを変換する正規化とは異なり、正則化にはL1またはL2ペナルティのようなテクニックが含まれ、モデルのオーバーフィットを減らします。詳しくは正則化をご覧ください。

ツールとリソース

  • Ultralytics HUB: AIモデルをトレーニングしデプロイするためのコード不要のプラットフォームで、オブジェクト検出やセグメンテーションなどのタスクのために正規化されたデータセットをシームレスに統合することができる。
  • Scikit-learn 正規化ガイド:Python ワークフローに正規化を実装するための包括的なリソース。
  • ImageNetデータセット:正規化が効果的なトレーニングに不可欠な、一般的なデータセット。

正規化は、機械学習ワークフローを成功させるための基礎であり、モデルのトレーニングに最適な形でデータを確保します。このテクニックを採用することで、開発者はモデルの効率性、信頼性、および多様なAIアプリケーションにおけるスケーラビリティを向上させることができます。

すべて読む