用語集

モデルの量子化

モデルの量子化でAIのパフォーマンスを最適化。サイズを縮小し、速度を向上させ、エネルギー効率を改善することで、実世界での展開を実現します。

モデルの量子化は、ニューラルネットワーク(NN)の重みと活性度を高精度の浮動小数点数(32ビット浮動小数点またはFP32など)から8ビット整数(INT8)などの低精度のデータ型に変換することで、メモリフットプリントと計算コストを削減する強力なモデル最適化手法です。この処理により、モデルの大幅な小型化と高速化が実現し、携帯電話や組み込みシステムのようなリソースに制約のあるハードウェアへの展開が可能になります。主な目標は、モデルの予測精度への影響を最小限に抑えながら、パフォーマンス、特に推論レイテンシを向上させることである。

モデル量子化の仕組み

量子化プロセスでは、学習済みモデル内の連続的な浮動小数点値の範囲を、より小さな離散的な整数値のセットにマッピングします。この変換により、各パラメータの格納に必要なビット数が削減され、モデル全体のサイズが縮小されます。さらに、低精度の整数を使用した計算は、多くの最新のCPUや、整数演算専用の命令を持つGPUや TPUなどの特殊なAIアクセラレータではるかに高速になります。

量子化には主に2つの方法がある:

  1. ポストトレーニング量子化(PTQ):これは最もシンプルなアプローチで、すでに学習済みのモデルをより精度の低いフォーマットに変換する。これは、小さなキャリブレーション・データセットで重みと活性度の分布を分析し、浮動小数点から整数への最適なマッピングを決定する迅速なプロセスである。
  2. 量子化を考慮したトレーニング(QAT)この方法では、量子化の影響をシミュレートしながらモデルの学習や微調整を行う。学習プロセスのフォワードパスは量子化された推論を模倣し、モデルが精度の低下に適応できるようにする。QATはPTQよりも精度が高いことが多いのですが、これはモデルが学習段階で潜在的な情報損失を補正するように学習するからです。PyTorchや TensorFlowのようなフレームワークは、QATを実装するための堅牢なツールを提供する。

実世界での応用

量子化は、実世界のシナリオ、特にエッジAIデバイス上で高度なコンピュータビジョンモデルを実行するために不可欠である。

  • オンデバイス画像解析:多くのスマートフォンアプリケーションは、リアルタイムの特徴に量子化モデルを使用しています。例えば、製品やランドマークの識別など、カメラを通してライブでオブジェクト検出を行うアプリは、バッテリーを消耗したりクラウド接続を必要としたりすることなく、携帯電話のハードウェア上で効率的に実行するために、Ultralytics YOLO11のような量子化モデルに依存しています。
  • 自動車とロボット工学 自律走行車では、歩行者検知や車線維持のためのモデルは、極めて低いレイテンシで動作する必要があります。これらのモデルを量子化することで、NVIDIA Jetsonや Google Coral Edge TPUのような特殊なハードウェア上で動作させることができ、安全性にとって極めて重要なコンマ1秒単位での判断を確実に行うことができます。

量子化と他の最適化技術との比較

モデル量子化は、他の最適化手法と並行して用いられることが多いが、そのアプローチは独特である。

  • モデルの刈り込みこの手法は、ニューラルネットワーク内の冗長な接続や重要でない接続(重み)を削除し、そのサイズと複雑さを軽減する。プルーニングがネットワークの一部を削除することでネットワークを小さくするのに対して、量子化は数値精度を下げることで残りの部分をより効率的にします。この2つを組み合わせることで、最大限の最適化が可能になります。
  • 知識の蒸留これは、事前に訓練されたより大きな「教師」モデルを模倣するために、より小さな「生徒」モデルを訓練することを含む。目標は、教師の知識をよりコンパクトなアーキテクチャに移すことである。これは、新しいモデルをトレーニングするのではなく、既存のモデルの数値表現を変更する量子化とは異なります。
  • 混合精度この手法は、モデル学習時に異なる数値精度(FP16とFP32など)を組み合わせて使用することで、プロセスの高速化とメモリ使用量の削減を実現する。量子化が通常推論モデルの最適化に重点を置くのに対し、この手法は主にトレーニングの最適化です。

配慮とサポート

量子化は非常に有益ですが、モデルの精度に影響を与える可能性があります。パフォーマンスのトレードオフが許容範囲内であることを確認するために、量子化後に関連するパフォーマンス・メトリクスを用いて徹底的な評価を行うことが不可欠です。

Ultralyticsは、量子化に適したフォーマットへのエクスポートをサポートすることで、量子化モデルの展開を容易にします。これらのフォーマットには、幅広い互換性のためのONNXIntelハードウェア上での最適化のためのOpenVINONVIDIA GPU上での高いパフォーマンスのためのTensorRTが含まれます。Ultralytics HUBのようなプラットフォームは、トレーニングから最適化されたモデルのデプロイまで、ライフサイクル全体の管理を支援します。Neural Magicのようなツールとの統合は、量子化とプルーニングを活用して、CPU上でGPUクラスのパフォーマンスを達成することもできます。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク