Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

الجيل المعزز بالاسترجاع (RAG)

اكتشف كيف تعمل تقنية Retrieval Augmented Generation (RAG) على تحسين نماذج اللغة الكبيرة (LLM) باستخدام البيانات في الوقت الفعلي. تعلم كيفية إنشاء خطوط أنابيب متعددة الوسائط باستخدام Ultralytics لتقنية RAG المرئية.

الاسترجاع المعزز للتوليد (RAG) هو تقنية متقدمة في مجال الذكاء الاصطناعي تعمل على تحسين مخرجات نموذج اللغة الكبيرة (LLM) من خلال الرجوع إلى قاعدة معرفية موثوقة خارج بيانات التدريب الخاصة به. تعتمد النماذج التوليدية التقليدية فقط على المعلومات الثابتة التي تم تعلمها خلال التدريب الأولي، مما قد يؤدي إلى إجابات قديمة أو أخطاء واثقة معروفة بالهلوسة. يعمل RAG على سد هذه الفجوة من خلال استرجاع المعلومات ذات الصلة والمحدثة من مصادر خارجية — مثل قواعد بيانات الشركة أو الأخبار الحالية أو الكتيبات الفنية — وتغذية النموذج بها كسياق قبل إنشاء الرد. تضمن هذه العملية أن مخرجات الذكاء الاصطناعي ليست متسقة لغويًا فحسب، بل دقيقة أيضًا من الناحية الواقعية ومستندة إلى بيانات محددة.

كيف تعمل أنظمة RAG

تتضمن بنية نظام RAG عادةً مرحلتين رئيسيتين: الاسترجاع والتوليد. يتيح سير العمل هذا للمطورين الحفاظ على نموذج أساسي دون الحاجة المكلفة إلى إعادة التدريب المتكرر.

  1. الاسترجاع: عندما يرسل المستخدم استعلامًا، يقوم النظام أولاً بإجراء بحث دلالي عبر نظام تخزين متخصص يسمى قاعدة بيانات متجهة. تحتوي قاعدة البيانات هذه على بيانات تم تحويلها إلى تمثيلات رقمية تعرف باسم التضمينات، مما يسمح للنظام بالعثور على معلومات مشابهة من الناحية المفاهيمية بدلاً من مجرد مطابقة الكلمات الرئيسية.
  2. التوليد: يتم دمج المستندات أو مقتطفات البيانات ذات الصلة التي تم العثور عليها أثناء الاسترجاع مع السؤال الأصلي للمستخدم. ثم يتم إرسال هذه المطالبة المُثرة إلى النموذج التوليدي. يستخدم النموذج هذا السياق المقدم لتوليف إجابة، مما يضمن أن الاستجابة تعتمد على الحقائق المسترجعة. لمزيد من التعمق في الآليات، توفر IBM دليلاً شاملاً حول سير عمل RAG.

RAG البصري: دمج الرؤية الحاسوبية

في حين أن RAG يعتمد تقليديًا على النصوص، فإن ظهور التعلم متعدد الوسائط قد أدخل "Visual RAG". في هذا السيناريو، تعمل نماذج الرؤية الحاسوبية كآلية استرجاع . فهي تحلل الصور أو تدفقات الفيديو لاستخراج البيانات النصية المنظمة — مثل أسماء الكائنات أو الأعداد أو الأنشطة — والتي يتم إدخالها بعد ذلك في LLM للإجابة على الأسئلة المتعلقة بالمشهد المرئي.

على سبيل المثال، يمكن للمطور استخدام YOLO26 detect في صورة ما وتمرير قائمة الكائنات تلك إلى نموذج نصي لإنشاء تقرير وصفي.

from ultralytics import YOLO

# Load the YOLO26 model for state-of-the-art detection
model = YOLO("yolo26n.pt")

# Perform inference to 'retrieve' visual facts from an image
results = model("https://ultralytics.com/images/bus.jpg")

# Extract class names to build a text context for an LLM
detected_classes = [model.names[int(c)] for c in results[0].boxes.cls]
context_string = f"The scene contains: {', '.join(detected_classes)}."

print(context_string)
# Output example: "The scene contains: bus, person, person, person."

تطبيقات واقعية

تقوم RAG بتحويل الصناعات من خلال تمكين وكلاء الذكاء الاصطناعي من الوصول إلى البيانات الخاصة أو البيانات في الوقت الفعلي بشكل آمن.

  • قواعد المعرفة المؤسسية: تستخدم الشركات RAG لإنشاء روبوتات دردشة داخلية تجيب على أسئلة الموظفين حول سياسات الموارد البشرية أو الوثائق الفنية. من خلال ربط LLM بمستودع مستندات مباشر، يتجنب النظام تقديم معلومات سياسة قديمة. لمزيد من المعلومات حول تطبيقات المؤسسات، راجع نظرة عامةGoogle على RAG في Vertex AI.
  • دعم القرار السريري: في الذكاء الاصطناعي في مجال الرعاية الصحية، يمكن لأنظمة RAG استرجاع تاريخ المريض والأبحاث الطبية الحديثة لمساعدة الأطباء في التشخيص، مما يضمن أن النصيحة تأخذ في الاعتبار أحدث الدراسات السريرية.
  • مساعدو البيع بالتجزئة الأذكياء: تستخدم التطبيقات التي تستخدم الذكاء الاصطناعي في البيع بالتجزئة RAG للتحقق من قواعد بيانات المخزون الحية. إذا سأل عميل روبوت الدردشة، "هل لديكم حذاء الجري هذا بمقاس 10؟"، فإن النموذج يسترجع مستويات المخزون في الوقت الفعلي قبل الإجابة، مما يمنع الإحباط بسبب نفاد المخزون.

ضبط RAG مقابل الضبط الدقيق

من المهم التمييز بين RAG والتحسين الدقيق، لأن كل منهما يحل مشاكل مختلفة.

  • RAG (Retrieval Augmented Generation): الأفضل للوصول إلى البيانات الديناميكية التي تتغير باستمرار (مثل أسعار الأسهم والأخبار) أو البيانات الخاصة غير الموجودة في مجموعة التدريب العامة. يركز على توفير معلومات جديدة في وقت التشغيل.
  • الضبط الدقيق: الأفضل لتكييف سلوك النموذج أو أسلوبه أو مصطلحاته. يتضمن تحديث أوزان النموذج على مجموعة بيانات محددة. في حين أن الضبط الدقيق يساعد النموذج على تعلم نمط لغوي معين (مثل المصطلحات الطبية)، فإنه لا يمنح الوصول إلى حقائق في الوقت الفعلي. انظر دليل OpenAI حول الضبط الدقيق مقابل RAG لأطر اتخاذ القرار .

المفاهيم ذات الصلة

  • LangChain: إطار عمل مفتوح المصدر شائع مصمم خصيصًا لتبسيط إنشاء تطبيقات RAG عن طريق ربط أجهزة الاسترجاع و LLMs معًا.
  • مخطط المعرفة: طريقة منظمة لتمثيل البيانات التي يمكن استخدامها كمصدر للاسترجاع، وتوفر علاقات أكثر ثراءً من حيث السياق مقارنة بالتشابه البسيط بين المتجهات.
  • هندسة المطالبات: فن صياغة المدخلات لتوجيه النموذج. RAG هو في الأساس شكل آلي من أشكال هندسة المطالبات حيث يتم إثراء "المطالبة" بالبيانات المسترجعة برمجياً.
  • Ultralytics : بينما تتولى RAG جانب إنشاء النصوص ، فإن منصات مثل هذه ضرورية لإدارة معالجة البيانات المسبقة وتدريب نماذج الرؤية التي تغذي البيانات المرئية في خطوط أنابيب RAG متعددة الوسائط.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن