Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Yarı Hassasiyet

Yarım hassasiyetli (FP16) teknolojinin yapay zekayı nasıl hızlandırdığını öğrenin. Ultralytics GPU'larda ve uç cihazlarda daha hızlı çıkarım ve daha az bellek kullanımı için nasıl optimize edebileceğinizi keşfedin.

Yarım hassasiyet, genellikle FP16 olarak gösterilir ve 32 bit kullanan standart tek hassasiyet (FP32) formatından farklı olarak, bilgisayar belleğinin 16 bitini kaplayan bir kayan nokta veri formatıdır. Yapay zeka ve makine öğrenimi bağlamında, yarım hassasiyet, model eğitimi ve çıkarımını hızlandırmak ve bellek tüketimini önemli ölçüde azaltmak için kullanılan kritik bir optimizasyon tekniğidir. Nümerik değerleri (örneğin, sinir ağı modeli ağırlıkları ve gradyanları) daha az bit kullanarak depolayarak, geliştiriciler daha büyük modelleri GPU grafik işlem birimlerine sığdırabilir veya mevcut modelleri çok daha hızlı çalıştırabilir. Sinir ağı modeli ağırlıkları ve gradyanları gibi sayısal değerleri daha az bit kullanarak depolayarak, geliştiriciler daha büyük modelleri GPU işlem birimlerine sığdırabilir veya mevcut modelleri çok daha hızlı çalıştırabilir. Bu verimlilik artışı, YOLO26 gibi modern, karmaşık mimarileri kaynakları sınırlı cihazlarda önemli bir doğruluk kaybı olmadan

Kayan Nokta Biçimlerinin İşleyişi

Yarım hassasiyeti anlamak için, tam hassasiyetle karşılaştırmak yardımcı olabilir. Standart bir 32 bitlik kayan nokta sayısı (FP32), üs ve mantiseye daha fazla bit ayırarak çok geniş bir dinamik aralık ve yüksek sayısal hassasiyet sağlar. Ancak, derin öğrenme modelleri küçük sayısal hatalara karşı oldukça dayanıklıdır. Sinir ağları, 16 bit formatının sunduğu daha düşük dinamik aralık ve ayrıntı düzeyinde bile genellikle etkili bir şekilde öğrenebilir.

Yarım hassasiyete geçiş, bellek bant genişliği gereksinimini yarı yarıya azaltır. Bu, eğitim sırasında daha büyük toplu iş boyutlarına olanak tanır, bu da gradyan güncellemelerini stabilize edebilir ve genel eğitim sürecini hızlandırabilir. NVIDIA Tensor gibi modern donanım hızlandırıcıları, FP32'den önemli ölçüde daha yüksek hızlarda FP16'da matris çarpımları gerçekleştirmek için özel olarak optimize edilmiştir.

AI İş Akışlarının Temel Avantajları

Yarım hassasiyetin benimsenmesi, yapay zeka uygulayıcıları için birkaç somut avantaj sunar:

  • Azaltılmış Bellek Ayak İzi: Modeller yarı yarıya daha az VRAM (Video RAM) gerektirir, bu da geliştiricilerin aynı donanım üzerinde daha büyük ağları eğitmelerine veya daha yüksek çözünürlüklü eğitim verilerini kullanmalarına olanak tanır.
  • Daha Hızlı Çıkarım: Otonom araçlar veya video analizi gibi gerçek zamanlı uygulamalar için FP16, işlem hacmini (saniye başına kare sayısı) iki katına çıkararak çıkarım gecikmesini azaltabilir. .
  • Enerji Verimliliği: Daha az bit işlemek daha az enerji gerektirir, bu da pil ömrünün bir kısıtlama olduğu kenar AI cihazları ve cep telefonları için çok önemlidir .
  • Karışık Hassasiyet Eğitimi: Birçok modern çerçeve, karışık hassasiyet kullanır; burada model, kararlılık için ağırlıkların ana kopyasını FP32'de tutar, ancak ağır hesaplamaları FP16'da gerçekleştirir. Bu, "her iki dünyanın en iyisini" sağlar: hız ve yakınsama kararlılığı.

Gerçek Dünya Uygulamaları

Yarım hassasiyet, üretim düzeyindeki AI sistemlerinde yaygın olarak kullanılmaktadır. İşte iki somut örnek:

  1. Kenar Cihazlarda Gerçek Zamanlı Nesne Algılama: Ultralytics YOLO26 kullanan bir güvenlik kamera sisteminin, detect düşünün. Modelin FP16'da dağıtılması, NVIDIA Jetson veya Raspberry Pi AI Kit gibi gömülü bir çip üzerinde sorunsuz çalışmasını sağlar. Azaltılmış hesaplama yükü, sistemin video akışlarını gerçek zamanlı çıkarım modunda gecikme olmadan işleyebilmesini sağlar. Bu, zamanında uyarılar için hayati önem taşır.

  2. Büyük Dil Modeli (LLM) Dağıtımı: GPT-4 veya Llama varyantları gibi üretken AI modelleri milyarlarca parametreye sahiptir. Bu modelleri tam hassasiyetle (FP32) yüklemek, genellikle Bu modelleri tam hassasiyetle (FP32) yüklemek, genellikle maliyet açısından engelleyici olan büyük miktarda sunucu belleği gerektirir. Bu modelleri FP16'ya (veya daha düşük formatlara) dönüştürerek, bulut sağlayıcıları temel modelleri binlerce kullanıcıya aynı anda sunabilir ve böylece sohbet robotları ve otomatik içerik üretimi gibi hizmetleri ekonomik olarak uygulanabilir hale getirebilir.

Yarım Hassasiyet ve Niceleme

Her iki teknik de model boyutunu küçültmeyi amaçlasa da, 'Yarım Hassasiyet' ile model nicelemesini ayırt etmek önemlidir.

  • Yarım Hassasiyet (FP16): Bit genişliğini 32'den 16'ya düşürür, ancak verileri kayan nokta sayısı olarak tutar. Makul bir dinamik aralık sağlar ve genellikle GPU ve çıkarım için varsayılan seçimdir. .
  • Kuantizasyon (INT8): Kayan nokta sayılarını tamsayılara (genellikle 8 bit) dönüştürür. Bu, daha da fazla hız ve bellek tasarrufu sağlar, ancak dikkatli yapılmazsa (örneğin, kuantizasyon farkında eğitim yoluyla) bazen doğrulukta daha belirgin bir düşüşe yol açabilir. FP16 genellikle model performansını korumak için daha güvenlidir, INT8 ise aşırı optimizasyon için kullanılır.

Ultralytics ile Yarım Hassasiyet Uygulama

Bu ultralytics kütüphanesi, yarım hassasiyetin kullanımını kolaylaştırır. Tahmin sırasında, model donanım destekliyorsa otomatik olarak yarım hassasiyete geçebilir veya bu açıkça talep edilebilir.

Here is a Python example demonstrating how to load a YOLO26 modeli ve yarım hassasiyet kullanarak çıkarım yapın. Çalıştırmanın half=True genellikle CUDA bir GPU gerektirir.

import torch
from ultralytics import YOLO

# Check if CUDA (GPU) is available, as FP16 is primarily for GPU acceleration
device = "cuda" if torch.cuda.is_available() else "cpu"

# Load the latest YOLO26n model
model = YOLO("yolo26n.pt")

# Run inference on an image with half-precision enabled
# The 'half=True' argument tells the engine to use FP16
results = model.predict("https://ultralytics.com/images/bus.jpg", device=device, half=True)

# Print the device and precision status
print(f"Inference device: {results[0].orig_img.shape}, Speed: {results[0].speed}")

Veri kümelerini ve eğitim boru hatlarını yöneten kullanıcılar için, Ultralytics bu optimizasyonların çoğunu bulutta otomatik olarak gerçekleştirir ve anotasyonundan optimize edilmiş model dağıtımına geçişi kolaylaştırır.

Daha Fazla Okuma ve Kaynak

Sayısal formatlar ve bunların yapay zeka üzerindeki etkisi hakkında daha fazla bilgi edinmek için, Tensor ile ilgili NVIDIA Öğrenme Performansı Belgeleri 'ne bakın. Bu optimizasyonların geliştirme yaşam döngüsüne nasıl uyum sağladığını daha kapsamlı bir şekilde anlamak için, makine öğrenimi işlemleri (MLOps) hakkında bilgi edinin. .

Ek olarak, farklı optimizasyon stratejileri arasındaki ödünleşimlerle ilgilenenler, bit hassasiyetini azaltmak yerine bağlantıları kaldıran budama yöntemini inceleyebilir veya dijital aritmetiğin teknik özellikleri için IEEE Kayan Nokta Aritmetiği Standardı'nı (IEEE 754) keşfedebilir. Bu temel bilgileri anlamak, modelleri ONNX veya TensorRT gibi formatlara aktarırken bilinçli kararlar almanıza yardımcı olur.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın