اكتشف كيف يعمل التخزين المؤقت الفوري على تحسين الذكاء الاصطناعي التوليدي من خلال تقليل زمن الاستجابة والتكاليف. تعرف على دوره في نماذج اللغة الكبيرة (LLM) والرؤية الحاسوبية في الوقت الفعلي باستخدام Ultralytics .
التخزين المؤقت الفوري هو استراتيجية تحسين متقدمة تستخدم بشكل أساسي في الذكاء الاصطناعي التوليدي لتقليل التكاليف بشكل كبير وتحسين أوقات الاستجابة أثناء الاستدلال. في مجال نماذج اللغة الكبيرة (LLMs)، تتطلب معالجة النصوص تحويل المدخلات إلى تسلسلات رقمية تُعرف باسم الرموز. غالبًا ما يظل جزء كبير من بيانات الإدخال — مثل تعليمات النظام التفصيلية أو المستندات القانونية الطويلة أو قاعدة الكود — ثابتًا عبر العديد من استعلامات المستخدمين المختلفة. بدلاً من إعادة معالجة هذه الأقسام الثابتة لكل طلب جديد، يقوم التخزين المؤقت للطلبات بتخزين الحالات الرياضية المحسوبة مسبقًا (غالبًا ما تسمى ذاكرة التخزين المؤقت للقيمة الرئيسية) في الذاكرة. وهذا يسمح لمحرك الاستدلال محرك الاستدلال تخطي الحسابات الزائدة عن الحاجة، وتركيز القوة الحسابية فقط على الأجزاء الجديدة والديناميكية من موجه المستخدم.
تعتمد الآليات الأساسية للتخزين المؤقت الفوري على بنية المحولات، التي تعالج البيانات بشكل تسلسلي. من خلال تحديد البادئة المتكررة للموجه، يمكن للنظام تحميل آلية الانتباه آلية الانتباه حالات آلية الانتباه
التخزين المؤقت الفوري يغير الصناعات التي تعتمد على سياق البيانات الثقيلة.
على الرغم من ارتباطه التقليدي بالنص، فإن مفهوم التخزين المؤقت يعد أمرًا حيويًا في الرؤية الحاسوبية متعددة الوسائط الرؤية الحاسوبية (CV). نماذج مثل YOLO تسمح للمستخدمين detect باستخدام مطالبات نصية ذات مفردات مفتوحة. عندما يحدد المستخدم قائمة بالفئات (على سبيل المثال، "شخص، حقيبة ظهر، سيارة")، يحسب النموذج التضمينات النصية لهذه الفئات. التخزين المؤقت لهذه التضمينات يمنع النموذج من الحاجة إلى إعادة ترميز المطالبات النصية لكل إطار فيديو على حدة، مما يتيح الاستدلال في الوقت الحقيقي بسرعة عالية الاستدلال في الوقت الحقيقي.
ما يلي Python يوضح المقتطف مفهوم
"تخزين" موجه في سياق الرؤية باستخدام ultralytics الحزمة. من خلال تعيين الفئات
مرة واحدة في YOLO النموذج، يتم حساب
تضمينات النص وتخزينها (بشكل دائم)، مما يسمح للنموذج بالتنبؤ بكفاءة على صور متعددة دون
إعادة معالجة الوصف النصي.
from ultralytics import YOLOWorld
# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")
# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])
# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")
لإدارة مجموعات البيانات ونشر هذه النماذج المُحسّنة، فإن Ultralytics بيئة شاملة لتعليق البيانات وتدريب النماذج المتطورة مثل YOLO26، ومراقبة أداء النشر عبر مختلف أجهزة Edge AI .