ラベルスムージングによりAIモデルの精度とロバスト性を向上-汎化を改善し、過信を減らす実証済みのテクニック。
ラベルスムージングは、機械学習、特に分類タスクにおいて、モデルの汎化とキャリブレーションを改善するために使用される正則化テクニックである。これは、学習中に使用されるターゲットラベルを修正することによって機能し、予測における過信を減らし、モデルがその分類についてあまり確信が持てないようにするために、ハードワン・ホット・エンコードされたラベルを柔らかくする。
伝統的な分類タスクでは、ターゲット・ラベルはしばしばワンホット・エンコーディングを使って表現される。例えば、ある画像が'cat'クラスに属するとすると、ラベルは次のようになる。 [0, 1, 0, 0]
の4つのクラス(犬、猫、鳥、魚)について、「猫」クラスでは全信頼度(1.0)、それ以外では信頼度ゼロ(0.0)を示す。ラベル・スムージングは、正しいクラスから正しくないクラスへ少量の確率質量を分配することにより、これを変更する。のターゲットの代わりに [0, 1, 0, 0]
ラベルの平滑化によって、次のように変わるかもしれない。 [0.01, 0.9, 0.03, 0.06]
.この調整されたターゲットは、イメージは確かに「猫」であるが、他の何かである可能性もわずかにあることを示している。
この一見些細な調整は、モデルの学習方法に大きな影響を与える。ラベルスムージングは、学習中にモデルが単一のクラスについて過信するのを防ぐことで、よりロバストで汎化可能な特徴を学習するよう促す。これは本質的に、訓練データにも不確実性やノイズがあるかもしれないことをモデルに伝え、訓練データを完璧にフィットさせすぎてオーバーフィッティングにつながらないようにする。
ラベルスムージングの主な利点は、モデルの汎化の改善である。標準的なワンホットエンコーディングでトレーニングされたモデルは、特にトレーニングデータにおいて、その予測に過度の自信を持つようになる可能性がある。この過信は、モデルが不確実性や入力のわずかな変動を扱うことを学習していないため、未知のデータでのパフォーマンス低下につながる可能性がある。
ラベル・スムージングは、過信的な予測にペナルティを与えることで、正則化の一形態として機能する。つまり、予測された確率が、あるクラスが正しいという実際の可能性をより反映するようになる。これは、特にデータがノイズが多く、訓練データセットよりも完全でないことが多い実世界のアプリケーションにおいて、より良い精度と信頼性をもたらすことが多い。
さらに、ラベルの平滑化は、モデルが学習データを記憶するのを防ぎ、その代わりに、より意味のある表現を学習するのに役立つ。これにより、学習プロセスがより安定し、データセット内のノイズの多いラベルの影響を受けにくくなる。
ラベル・スムージングは、AIや機械学習の様々な領域でうまく適用されている。以下にいくつかの例を挙げる:
画像分類: Ultralytics YOLO モデルによる画像分類では、分類器の頑健性を向上させるためにラベル・スムージングを使用することができる。例えば、ImageNet上でモデルを学習する場合、ラベルスムージングを適用することで、検証精度をわずかではあるが大幅に向上させることができます。これは、正確でよく較正された確率推定が診断に極めて重要な、医療画像解析のようなシナリオで特に有用です。
自然言語処理(NLP):ラベルの平滑化は、機械翻訳や言語モデリングなどのNLPタスクにおいても有益である。例えば、GPT-3や GPT-4のような大規模な言語モデルを学習する場合、ラベルの平滑化によって、新しい文や文脈へのモデルの汎化能力を高めることができます。また、単語予測においてモデルが過度に決定論的であることを抑制することで、生成されたテキストの流暢さと一貫性を向上させることができる。プロンプトエンジニアリングのような技術は、ラベルスムージングによって改善されたキャリブレーションをさらに活用し、より信頼性が高く、文脈を考慮したテキスト出力を生成することができる。
ラベル・スムージングをトレーニング・プロセスに組み込むことで、開発者はより信頼性が高くロバストなAIモデルを構築することができる。 Ultralytics YOLOv8のような強力なモデルを視覚タスクに使用する場合は特にそうだ。