機械学習における正規化の威力をご覧ください!モデル学習を強化し、パフォーマンスを向上させ、ロバストなAIソリューションを実現する方法をご覧ください。
正規化は、機械学習(ML)やデータサイエンスで広く使用されている基本的なデータ前処理技術である。その主な目的は、数値データの特徴を、値の範囲の違いを歪めることなく、共通の標準的な範囲(多くの場合、0~1または-1~1)に再スケールすることです。このプロセスにより、すべての特徴がより均等にモデル学習に寄与するようになり、本来大きな値を持つ特徴(データセット内の給与など)が、小さな値を持つ特徴(経験年数など)に比べて結果に不釣り合いに影響するのを防ぐことができます。正規化は、ディープラーニング(DL)で使用される勾配降下ベースの手法や様々な最適化アルゴリズムなど、特徴のスケーリングに敏感なアルゴリズムにとって特に重要です。
実世界のデータセットには、スケールや単位が大きく異なる特徴が含まれていることが多い。例えば、顧客離れを予測するデータセットでは、「口座残高」は数百から数百万まで、「商品数」は1から10まであるかもしれない。正規化なしでは、サポートベクターマシン(SVM)やニューラルネットワーク(NN)のように、距離を計算したり勾配を使ったりするMLアルゴリズムは、単純にそのスケールによって、より大きな範囲の特徴をより重要であると誤って認識するかもしれません。正規化することで、各特徴の寄与がその大きさではなく、予測力に基づくことを保証し、競争の場を平準化します。これにより、学習中の収束が早くなり(エポック数の減少に見られる)、モデルの精度が向上し、より安定したロバストモデルになります。この安定性は Ultralytics YOLOのようなモデルを、物体検出や インスタンスのセグメンテーションなどのタスクでトレーニングする場合に有益であり、平均平均精度(mAP)のようなメトリクスを向上させる可能性があります。
データの再スケーリングにはいくつかの方法があり、それぞれ異なる状況に適している:
これらのテクニックの選択は、特定のデータセット(Ultralytics Datasetsにあるようなもの)と使用するMLアルゴリズムの要件に依存することが多い。アノテーションデータの前処理に関するガイドは、特定のタスクに関連する正規化のステップをカバーしていることが多い。
正規化を関連概念と区別することは重要だ:
正規化は、さまざまな人工知能(AI)およびMLタスクのためにデータを準備するための、どこにでもあるステップである:
要約すると、正規化はデータの特徴を一貫性のある範囲にスケールする重要な前処理ステップであり、Ultralytics HUBのようなツールを使用して開発および訓練されたものを含む、多くの機械学習モデルの訓練プロセス、安定性、およびパフォーマンスを向上させます。これは、公正な特徴寄与を保証し、入力スケールに敏感なアルゴリズムに不可欠であり、より堅牢で正確なAIソリューションに貢献します。