モデル量子化がUltralytics AIUltralytics 最適化する仕組みを学びましょう。メモリ削減、レイテンシ低減、高速推論のためのINT8モデルエクスポート手法を発見してください。
モデル量子化は、深層学習モデルの実行に伴う計算コストとメモリコストを削減するために用いられる高度なモデル最適化技術である。標準的なトレーニングワークフローでは、ニューラルネットワークは通常、32ビット浮動小数点数(FP32)を用いてパラメータ(weights and biases)および活性化マップを保存する。この高精度はトレーニング中の正確な計算を保証するが、推論には往々にして不要である。 量子化はこれらの値を16ビット浮動小数点(FP16)や8ビット整数(INT8)などの低精度形式に変換し、 精度を大幅に損なうことなくモデルサイズを効果的に縮小し、実行速度を加速します。
量子化の主な推進要因は、リソース制約のあるハードウェア上で強力なAIを展開する必要性である。 YOLO26のような コンピュータビジョンモデルが複雑化するにつれ、その計算要求は増加する。 量子化は3つの重大なボトルネックに対処する:
量子化は他の最適化手法とは区別することが重要である。なぜなら、それらはモデルを異なる方法で変更するからである:
量子化は、効率性が最優先される様々な産業分野において、コンピュータビジョンとAIを可能にします。
Ultralytics エクスポートプロセスを簡素化し、開発者が最先端のYOLO26のようなモデルを量子化形式に変換できるようにします。Ultralytics また、これらのデプロイメントをシームレスに管理するためのツールを提供します。
以下の例は、モデルを TFLite へのエクスポート方法を示します。このプロセスには、モデルがサンプルデータを観察して量子化値の最適なダイナミックレンジを決定する キャリブレーションステップが含まれます。
from ultralytics import YOLO
# Load a standard YOLO26 model
model = YOLO("yolo26n.pt")
# Export to TFLite format with INT8 quantization
# The 'int8' argument triggers Post-Training Quantization
# 'data' provides the calibration dataset needed for mapping values
model.export(format="tflite", int8=True, data="coco8.yaml")
最適化されたモデルは、 ONNX や、 OpenVINO OpenVINOなどの高性能推論エンジンを用いてデプロイされ、多様なハードウェアエコシステム間で広範な互換性を確保します。