Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التخزين المؤقت للموجه

اكتشف كيف يعمل التخزين المؤقت الفوري على تحسين الذكاء الاصطناعي التوليدي من خلال تقليل زمن الاستجابة والتكاليف. تعرف على دوره في نماذج اللغة الكبيرة (LLM) والرؤية الحاسوبية في الوقت الفعلي باستخدام Ultralytics .

التخزين المؤقت الفوري هو استراتيجية تحسين متقدمة تستخدم بشكل أساسي في الذكاء الاصطناعي التوليدي لتقليل التكاليف بشكل كبير وتحسين أوقات الاستجابة أثناء الاستدلال. في مجال نماذج اللغة الكبيرة (LLMs)، تتطلب معالجة النصوص تحويل المدخلات إلى تسلسلات رقمية تُعرف باسم الرموز. غالبًا ما يظل جزء كبير من بيانات الإدخال — مثل تعليمات النظام التفصيلية أو المستندات القانونية الطويلة أو قاعدة الكود — ثابتًا عبر العديد من استعلامات المستخدمين المختلفة. بدلاً من إعادة معالجة هذه الأقسام الثابتة لكل طلب جديد، يقوم التخزين المؤقت للطلبات بتخزين الحالات الرياضية المحسوبة مسبقًا (غالبًا ما تسمى ذاكرة التخزين المؤقت للقيمة الرئيسية) في الذاكرة. وهذا يسمح لمحرك الاستدلال محرك الاستدلال تخطي الحسابات الزائدة عن الحاجة، وتركيز القوة الحسابية فقط على الأجزاء الجديدة والديناميكية من موجه المستخدم.

الآليات والفوائد

تعتمد الآليات الأساسية للتخزين المؤقت الفوري على بنية المحولات، التي تعالج البيانات بشكل تسلسلي. من خلال تحديد البادئة المتكررة للموجه، يمكن للنظام تحميل آلية الانتباه آلية الانتباه حالات آلية الانتباه

  • تقليل زمن الاستجابة: التخزين المؤقت يقلل بشكل كبير من زمن الاستدلال، وتحديدًا وقت الوصول إلى أول رمز (TTFT). وهذا يضمن أن التطبيقات في الوقت الفعلي، مثل روبوتات الدردشة التفاعلية روبوتات الدردشة، تبدو فورية للمستخدم.
  • الكفاءة من حيث التكلفة: منذ مقدمي خدمات الحوسبة السحابية غالبًا ما يحسبون الفواتير على أساس مدة الحوسبة أو معالجة الرموز، فإن تخطي المهام الثقيلة للسياق الثابت يؤدي إلى توفير كبير.
  • زيادة الإنتاجية: من خلال تحرير GPU ، يمكن للخوادم معالجة حجم أكبر من الطلبات المتزامنة، مما يجعل البنية التحتية لخدمة النماذج أكثر قابلية للتوسع.

تطبيقات واقعية

التخزين المؤقت الفوري يغير الصناعات التي تعتمد على سياق البيانات الثقيلة.

  1. مساعدو الترميز: في مجال تطوير البرمجيات، أدوات مثل GitHub Copilot تستخدم كميات هائلة من السياق من الملفات المفتوحة للمستخدم وهيكل المستودع. من خلال تخزين التضمينات لقاعدة الكود، يمكن للنموذج تقديم اقتراحات لإكمال الكود في الوقت الفعلي دون إعادة تحليل بنية ملف المشروع بالكامل لكل ضغطة مفتاح.
  2. التحليل القانوني والطبي: غالبًا ما يستفسر المحترفون وكلاء الذكاء الاصطناعي بشأن وثائق ثابتة ضخمة، مثل أرشيفات السوابق القضائية أو سجلات تاريخ المرضى. باستخدام التوليد المعزز بالاسترجاع (RAG)، يسترجع النظام أجزاء النص ذات الصلة. يضمن التخزين المؤقت للطلبات عدم الحاجة إلى إعادة حساب السياق الأساسي لهذه الوثائق المسترجعة من أجل الأسئلة المتابعة، مما يؤدي إلى تبسيط سير عمل الإجابة على الأسئلة .

الأهمية في رؤية الكمبيوتر

على الرغم من ارتباطه التقليدي بالنص، فإن مفهوم التخزين المؤقت يعد أمرًا حيويًا في الرؤية الحاسوبية متعددة الوسائط الرؤية الحاسوبية (CV). نماذج مثل YOLO تسمح للمستخدمين detect باستخدام مطالبات نصية ذات مفردات مفتوحة. عندما يحدد المستخدم قائمة بالفئات (على سبيل المثال، "شخص، حقيبة ظهر، سيارة")، يحسب النموذج التضمينات النصية لهذه الفئات. التخزين المؤقت لهذه التضمينات يمنع النموذج من الحاجة إلى إعادة ترميز المطالبات النصية لكل إطار فيديو على حدة، مما يتيح الاستدلال في الوقت الحقيقي بسرعة عالية الاستدلال في الوقت الحقيقي.

التمييز بين المصطلحات ذات الصلة

  • مقابل الهندسة السريعة: تتضمن الهندسة السريعة الجهد البشري لتصميم الإدخال النصي الأمثل لتوجيه النموذج. التخزين المؤقت السريع هو تحسين حسابي خلفي يخزن معالجة الآلة لهذا النص.
  • مقابل الضبط الفوري: الضبط الفوري هو تقنية التعلم النقلي تقنية تقوم بتحديث أوزان النموذج (مطالبات برمجية) لتكييف النموذج مع المهمة. لا يغير التخزين المؤقت معلمات النموذج؛ بل يحفظ فقط حالات التنشيط أثناء وقت التشغيل.

مثال على الكود: تخزين النصوص المضمنة في Vision

ما يلي Python يوضح المقتطف مفهوم "تخزين" موجه في سياق الرؤية باستخدام ultralytics الحزمة. من خلال تعيين الفئات مرة واحدة في YOLO النموذج، يتم حساب تضمينات النص وتخزينها (بشكل دائم)، مما يسمح للنموذج بالتنبؤ بكفاءة على صور متعددة دون إعادة معالجة الوصف النصي.

from ultralytics import YOLOWorld

# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")

# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])

# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")

لإدارة مجموعات البيانات ونشر هذه النماذج المُحسّنة، فإن Ultralytics بيئة شاملة لتعليق البيانات وتدريب النماذج المتطورة مثل YOLO26، ومراقبة أداء النشر عبر مختلف أجهزة Edge AI .

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن