用語集

ミックスド・プレシジョン

混合精度トレーニングでディープラーニングの効率を向上！精度を犠牲にすることなく、高速化、メモリ使用量の削減、省エネルギーを実現します。

混合精度は、モデル学習を高速化し、メモリ消費を削減するために深層学習で使用される手法である。これは、計算中に16ビット浮動小数点（FP16）のような低精度数値フォーマットと、32ビット浮動小数点（FP32）のような高精度フォーマットを組み合わせて使用するものである。重みの乗算のようなモデルの特定の部分に低精度数値を戦略的に使用し、重みの更新のような重要なコンポーネントを高精度に保つことで、混合精度トレーニングは、モデルの精度を大幅に損なうことなく、最新のGPUでパフォーマンスを大幅に加速することができます。

ミックスド・プレシジョンの仕組み

混合精度の背後にある核となる考え方は、低精度データ型の速度とメモリ効率を活用することです。最新のハードウェア、特にテンソルコアを搭載したNVIDIA GPUは、16ビット数に対する演算を32ビット数よりもはるかに高速に実行できる。このプロセスには通常、3つの重要なステップが含まれる：

低精度へのキャスト：モデルの演算のほとんど、特に計算量の多い行列の乗算と畳み込みは、半精度（FP16）演算を使って実行される。これにより、メモリフットプリントが削減され、計算が高速化されます。
重みのマスターコピーの維持モデルの精度と安定性を維持するため、モデルの重みのマスターコピーは、標準的な32ビット浮動小数点（FP32）形式で保持される。このマスターコピーは、学習プロセスにおいて勾配を累積し、重みを更新するために使用されます。
ロス・スケーリング：数値のアンダーフロー（小さな勾配値がFP16に変換されたときにゼロになる）を防ぐために、ロス・スケーリングと呼ばれる手法が使用される。これは、勾配値をFP16で表現可能な範囲に保つために、バックプロパゲーションの前に損失にスケーリング係数を掛けることを含む。重みが更新される前に、勾配はスケールダウンされる。

PyTorchや TensorFlowのようなディープラーニングフレームワークには、自動的な混合精度のサポートが組み込まれており、実装が容易である。

応用と実例

混合精度は、効率が最優先される大規模な機械学習（ML）モデルの学習に広く採用されている。

大規模言語モデル（LLM）のトレーニング： GPT-3や BERTのようなモデルには数十億のパラメータがあります。FP32のみを使用してこれらをトレーニングするには、法外な量のGPUメモリと時間が必要です。混合精度は、必要なメモリを大幅に削減し、計算を高速化することで、このような基礎モデルのトレーニングを実現可能にします。これにより、研究者はより高速に反復し、さらに強力な言語モデルを構築することができます。
コンピュータビジョンモデルの高速化 コンピュータビジョン(CV)では、混合精度は畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)のような複雑なモデルの学習を高速化します。物体検出や画像セグメンテーションのようなタスクでは、最新のUltralytics YOLO11を含むUltralytics YOLOモデルは、混合精度を活用して収束を高速化します。これは、ハイパーパラメーターのチューニングや、Ultralytics HUBのようなプラットフォーム内での迅速な開発に特に役立ちます。より速いトレーニングは、COCOのような大規模データセットでの迅速な実験も促進します。混合精度は推論中にも使用でき、特にTensorRTのような低精度用に大きく最適化された形式にエクスポートする場合に、モデルの展開を高速化します。

ミックスド・プレシジョン

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

Ultralytics YOLOでAIモデルを数秒でトレーニング

Ultralytics HUBでYOLOモデルを簡単にトレーニング

ミックスド・プレシジョンの仕組み

応用と実例

関連概念

このカテゴリの続きを読む

製造業ERPガイド

製造実行システム（MES）：AI主導の生産

アディティブ・マニュファクチャリングを理解する技術と使用例

Ultralyticsコミュニティに参加する