Sözlük

İstem Önbelleğe Alma

Hızlı önbelleklemenin gecikme süresini ve maliyetleri azaltarak üretken yapay zekayı nasıl optimize ettiğini keşfedin. Ultralytics ile LLM'lerde ve gerçek zamanlı bilgisayar görüşünde oynadığı rolü öğrenin.

Hızlı önbellekleme, öncelikle jeneratif yapay zeka kullanılan gelişmiş bir optimizasyon stratejisidir ve çıkarım sırasında maliyetleri önemli ölçüde azaltır ve yanıt sürelerini iyileştirir. Büyük Dil Modelleri (LLM), metin işleme, girdilerin tokenolarak bilinen sayısal dizilere dönüştürülmesini gerektirir. Çoğu zaman, ayrıntılı sistem talimatları, uzun yasal belgeler veya kod tabanı gibi girdi verilerinin büyük bir kısmı, birçok farklı kullanıcı sorgusunda sabit kalır. Her yeni istek için bu değişmeyen bölümleri yeniden işlemek yerine , prompt caching önceden hesaplanmış matematiksel durumları (genellikle Anahtar-Değer önbelleği olarak adlandırılır) bellekte depolar. Bu, çıkarım motorunun gereksiz hesaplamaları atlamasına ve hesaplama gücünü yalnızca kullanıcının komut isteminin yeni, dinamik kısımlarına odaklamasına olanak tanır.

Mekanizmalar ve Faydalar

Hızlı önbelleklemenin temel mekanizması, Transformers'ın mimarisine dayanır. Sistem, prompt'un tekrarlayan önekini tanımlayarak, ilgili dikkat mekanizmasını durumlarını doğrudan yüksek hızlı bellekten yükleyebilir.

Azaltılmış Gecikme Süresi: Önbellekleme, çıkarım gecikmesini, özellikle İlk Token Süresi (TTFT) gecikmesini önemli ölçüde azaltır. Bu, etkileşimli sohbet robotlarıgibi gerçek zamanlı uygulamaların kullanıcıya anında hissettirilmesini sağlar.
Maliyet Verimliliği: Bulut Bilişim sağlayıcıları genellikle hesaplama süresi veya token işleme temelinde faturalandırma yaptığından, statik bağlam için ağır işleri atlamak önemli tasarruflar sağlar.
Artan Verim: Serbest bırakarak GPU kaynaklarını serbest bırakarak, sunucular daha yüksek hacimde eşzamanlı istekleri işleyebilir ve tüm model sunum altyapısını daha ölçeklenebilir hale getirir.

Gerçek Dünya Uygulamaları

Hızlı önbellekleme, yoğun veri bağlamına dayanan sektörleri dönüştürüyor.

Kodlama Asistanları: Yazılım geliştirmede, GitHub Copilot kullanıcının açık dosyalarından ve depo yapısından büyük miktarda bağlam kullanır. kod tabanının gömülü , model her tuş vuruşu için tüm proje dosya yapısını yeniden analiz etmeden gerçek zamanlı kod tamamlama önerileri sunabilir. .
Hukuki ve Tıbbi Analiz: Profesyoneller sıklıkla AI ajanlarını 'ni sorgularlar. örneğin içtihat hukuku arşivleri veya hasta geçmişi kayıtları gibi büyük statik belgeler. Geri Alma ile Güçlendirilmiş Üretim (RAG), sistem ilgili metin parçalarını geri getirir. Hızlı önbellekleme, bulunan bu geri getirilen belgelerin temel bağlamının takip soruları için yeniden hesaplanmasına gerek kalmamasını sağlayarak, Soru Yanıtlama iş akışını kolaylaştırır.

Bilgisayar Görüntüsünde Alaka

Geleneksel olarak metinle ilişkilendirilen önbellekleme kavramı, çok modlu Bilgisayar Görme (CV). YOLO-World gibi modeller YOLO kullanıcıların açık sözlük metin komutlarını kullanarak detect olanak tanır. Bir kullanıcı bir sınıf listesi tanımladığında (örneğin, "kişi, sırt çantası, araba"), model bu sınıflar için metin gömülerini hesaplar. Bu gömüler önbelleğe alınarak model, her bir video karesi için metin komutlarını yeniden kodlamak zorunda kalmaz ve yüksek hızlı Gerçek Zamanlı Çıkarım.

İlgili Terimleri Ayırt Etme

Vs. Prompt Mühendisliği: Prompt mühendisliği, modeli yönlendirmek için en uygun metin girişini tasarlamak için insan çabasını içerir. Prompt önbellekleme , makinenin o metni işleme sürecini depolayan bir arka uç hesaplama optimizasyonudur.
Vs. Prompt Tuning: Prompt tuning bir Transfer Öğrenme tekniğidir ve belirli Model Ağırlıkları (yumuşak istemler) güncelleyen bir transfer öğrenimi tekniğidir. Önbellekleme, modelin parametrelerini değiştirmez; yalnızca çalışma süresi boyunca aktivasyon durumlarını hafızaya alır.

Kod Örneği: Görselde Metin Gömme Öbeklerini Önbelleğe Alma

Aşağıdakiler Python snippet, "önbellekleme" kavramını gösterir. ultralytics paket. Sınıfları bir kez YOLO model, metin gömme hesaplanır ve saklanır (kalıcı hale getirilir), böylece model metin açıklamasını yeniden işlemeksizin birden fazla görüntü üzerinde verimli bir şekilde tahminde bulunabilir .

from ultralytics import YOLOWorld

# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")

# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])

# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")

Veri kümelerini yönetmek ve bu optimize edilmiş modelleri dağıtmak için Ultralytics , verileri açıklama, YOLO26 gibi son teknoloji modelleri eğitme ve YOLO26gibi en son teknoloji modelleri eğitmek ve çeşitli Edge AI cihazlarındaki

İstem Önbelleğe Alma

Sektörler arası iş akışlarını kolaylaştırmak için Ultralytics YOLO modellerini eğitin

Yeniliklerinizi güçlendirmek için esnek kurumsal lisanslama çözümü

Ultralytics YOLO ile yapay zeka modellerini saniyeler içinde eğitin

Mekanizmalar ve Faydalar

Gerçek Dünya Uygulamaları

Bilgisayar Görüntüsünde Alaka

İlgili Terimleri Ayırt Etme

Kod Örneği: Görselde Metin Gömme Öbeklerini Önbelleğe Alma

Bu kategoride daha fazla okuyun

Bilgisayar görme teknolojisi ile desteklenen 12 hava görüntüsü kullanım örneği

Monoküler derinlik tahmini nedir? Genel bakış

AI tehdit tespiti için Ultralytics YOLO kullanımına bir bakış

Ultralytics topluluğuna katılın