Model niceleme ile yapay zeka performansını optimize edin. Gerçek dünya dağıtımları için boyutu azaltın, hızı artırın ve enerji verimliliğini iyileştirin.
Model niceleme, modellerin hesaplama ve bellek maliyetlerini azaltmak için derin öğrenmede (DL) kullanılan önemli bir model optimizasyon tekniğidir. Bunu, model parametrelerinin(ağırlıklar ve aktivasyonlar) sayısal hassasiyetini, tipik olarak 32 bit kayan nokta sayıları (FP32) gibi yüksek hassasiyetli gösterimlerden 16 bit kayan nokta (FP16), 8 bit tamsayılar (INT8) veya hatta daha düşük bit gösterimleri gibi daha düşük hassasiyetli formatlara dönüştürerek gerçekleştirir. Bu işlem, modelleri daha küçük, daha hızlı ve daha enerji verimli hale getirir; bu da özellikle karmaşık modellerin mobil cihazlar veya uç yapay zeka sistemleri gibi kaynak kısıtlı ortamlara dağıtılması için hayati önem taşır.
Özünde model niceleme, yüksek hassasiyetli tensörlerde (FP32'deki ağırlıklar ve aktivasyonlar gibi) bulunan değer aralığının daha düşük hassasiyetli veri türleri ( INT8 gibi) tarafından temsil edilebilen daha küçük bir aralığa eşlenmesini içerir. GPU 'lar ve TPU'lar gibi özel hızlandırıcılar gibi modern donanımlarda düşük hassasiyetli sayılar (özellikle tamsayılar) üzerindeki işlemler genellikle daha hızlı ve enerji açısından daha verimli olduğundan, bu dönüşüm modeli depolamak için gereken belleği ve çıkarım için gereken hesaplama gücünü önemli ölçüde azaltır.
Derin öğrenme modellerine niceleme uygulamak birkaç önemli avantaj sunar:
Model niceleme için iki temel yaklaşım vardır:
Model niceleme, çeşitli alanlarda yaygın olarak kullanılmaktadır:
Oldukça faydalı olsa da niceleme, model doğruluğunu potansiyel olarak etkileyebilir. Niceleme sonrasında ilgili performans ölçütleri kullanılarak dikkatli bir değerlendirme yapılması şarttır. Niceleme dostu model mimarileri kullanmak (örneğin, YOLOv8 'ta görüldüğü gibi belirli aktivasyon işlevlerini değiştirmek) gibi teknikler, nicelenmiş YOLOv8 modellerinin dağıtımında tartışıldığı gibi doğruluk bozulmasını azaltmaya yardımcı olabilir.
Model nicelleştirme, çeşitli model optimizasyon tekniklerinden biridir. Diğerleri şunları içerir:
Ultralytics , modellerin nicelleştirmeyi kolaylaştıran çeşitli formatlara aktarılmasını destekler, örneğin ONNX, OpenVINO, TensorRT, CoreMLve TFLite, farklı donanım platformlarında verimli dağıtım sağlar. Ultralytics HUB gibi araçları kullanarak nicelleştirilmiş sürümler de dahil olmak üzere modellerinizi yönetebilir ve dağıtabilirsiniz.