用語集

アダム・オプティマイザー

アダム・オプティマイザーが、適応学習率、モメンタム、AIにおける実世界でのアプリケーションを備えた効率的なニューラルネットワーク・トレーニングをどのようにパワーアップさせるかをご覧ください。

Adam(Adaptive Moment Estimation)は、機械学習(ML)深層学習(DL)でよく使われる強力な最適化アルゴリズムである。学習データに基づいてモデルのパラメータ(重みとバイアス)を繰り返し更新することで、モデルの最適値を効率的に求めるように設計されている。Adamは、その収束速度の速さと幅広い問題に対する有効性が高く評価され、カスタムモデルをトレーニングする際に多くの実務家がデフォルトで選択する一般的な手法となっている。Adamの開発は、大規模で複雑なモデルの学習をより実用的なものにするための重要なステップでした。

アダムの働き

アダムの主な革新点は、個々のパラメータに学習率を適応させる機能である。アダムは、ネットワーク内のすべての重みに単一の固定された学習率を使用する代わりに、トレーニングの進行に応じて調整される個々の学習率を計算する。これは、他の2つの最適化手法の利点を組み合わせることで実現されている:RMSPropとMomentumである。アダムは2つの主要な要素を追跡する。1つ目のモーメント(勾配の平均、モメンタムに似ている)と2つ目のモーメント(勾配の非中心分散)である。この組み合わせにより、勾配が一貫しているパラメータに対してはより大きなステップを踏み、ノイズの多いパラメータや勾配が疎なパラメータに対してはより小さなステップを踏み、より情報に基づいた更新を行うことができる。この方法は、KingmaとBaによるオリジナルのAdamの研究論文に詳述されている。

アダムと他のオプティマイザーとの比較

アダムを他の一般的なオプティマイザーと比較することは、その強みを理解するのに役立つ。

  • アダムと確率的勾配降下法(SGD)の比較:SGDは基本的な最適化アルゴリズムですが、すべてのパラメータ更新に適用される一定の学習率を使用します。そのため、収束に時間がかかったり、損失関数の最適でない「谷」にはまり込んだりすることがあります。適応的な学習率を持つアダムは、多くの場合、損失のランドスケープをより効率的にナビゲートし、はるかに速く収束する。しかし、いくつかの研究では、SGDで学習したモデルの方が、特定のシナリオにおいて、若干汎化性が高く、オーバーフィットをより効果的に回避できる可能性があることが示唆されている。この選択は、モデルトレーニングのヒントに関するガイドで説明されているように、しばしば経験的なテストが必要です。
  • AdamW:一般的で効果的な変形がAdamW(Adam with Decoupled Weight Decay)である。これは、正則化手法である重み減衰の適用方法を変更し、勾配更新ステップから分離します。これにより、モデルの性能が向上し、汎化が改善されます。PyTorchや TensorFlowのような主要なフレームワークで実装が可能です。

実世界での応用

アダムの効率性と堅牢性は、幅広い用途に適している。

  1. 大規模言語モデル(LLM)のトレーニング:Adamとその亜種は、自然言語処理(NLP)における大規模モデルの学習に不可欠です。GPT-4や Hugging Faceのようなモデルにとって、Adamの効率性は、Wikipediaのようなソースからの膨大なテキストデータセットを処理し、複雑な言語パターンを学習することを可能にします。複雑な損失ランドスケープをナビゲートする能力は、成功に不可欠である。
  2. 画像分類と物体検出: コンピュータビジョン(CV)において、AdamはImageNetや COCOのような大規模な画像データセット上で深層畳み込みニューラルネットワーク(CNN)を学習するために広く使用されています。画像分類や 物体検出のモデルが素早く収束するのを助け、開発とハイパーパラメータのチューニングサイクルを加速します。

ウルトラリティクスでの使用 YOLO

Ultralyticsのエコシステムでは、Adamとその亜種のAdamWが、UltralyticsのYOLOモデルをトレーニングするためのオプティマイザーとして利用できます。Adamの適応学習レートを活用することで、YOLO11や YOLOv10のようなオブジェクト検出、インスタンス分割ポーズ推定モデルのトレーニング中の収束を加速させることができます。 SGDは、最終的な汎化性が向上する可能性があるため、YOLOモデルのデフォルトや推奨オプティマイザとして使用されることがよくありますが、Adamはロバストな代替手段を提供し、特に初期の実験中に役立ちます。オプティマイザやその他のトレーニング設定は簡単に設定できる。Ultralytics HUBのようなツールはプロセスを効率化し、ユーザーはローカルまたはクラウドトレーニング経由で、Adamを含む様々なオプティマイザを使用してモデルをトレーニングすることができます。PyTorchや TensorFlowのようなフレームワークは、Adamの標準的な実装を提供し、Ultralyticsフレームワーク内で利用される。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク