Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التعلم بالتعزيز من خلال التغذية الراجعة البشرية (RLHF)

تعرف على كيفية قيام التعلم المعزز من ردود فعل البشر (RLHF) بمواءمة الذكاء الاصطناعي مع القيم البشرية. استكشف مكوناته الأساسية وتكامله مع Ultralytics .

التعلم المعزز من ردود فعل البشر (RLHF) هو تقنية متقدمة للتعلم الآلي تعمل على تحسين نماذج الذكاء الاصطناعي من خلال دمج المدخلات البشرية المباشرة في حلقة التدريب. على عكس التعلم الخاضع للإشراف القياسي، الذي يعتمد فقط على مجموعات البيانات الثابتة المصنفة، يقدم RLHF آلية ردود فعل ديناميكية حيث يقوم المقيّمون البشريون بتصنيف أو تقييم مخرجات النموذج. تسمح هذه العملية للذكاء الاصطناعي بالتقاط أهداف معقدة أو ذاتية أو دقيقة - مثل "الفائدة" أو "الأمان" أو "الإبداع" - والتي يصعب تعريفها باستخدام دالة خسارة رياضية بسيطة. أصبح RLHF حجر الزاوية في تطوير نماذج اللغة الكبيرة الحديثة (LLMs) و الذكاء الاصطناعي التوليدي، مما يضمن توافق النماذج الأساسية القوية بشكل فعال مع القيم البشرية ونوايا المستخدم.

المكونات الأساسية لـ RLHF

تتبع عملية RLHF عمومًا خطوات ثلاثية مصممة لسد الفجوة بين القدرات التنبؤية الأولية والسلوك المتوافق مع البشر.

  1. الضبط الدقيق تحت الإشراف (SFT): يبدأ سير العمل عادةً بنموذج أساسي مدرب مسبقًا. يقوم المطورون بإجراء الضبط الدقيق الأولي باستخدام مجموعة بيانات أصغر حجمًا وعالية الجودة من الأمثلة (مثل أزواج الأسئلة والأجوبة المكتوبة من قبل الخبراء). تحدد هذه الخطوة سياسة أساسية، وتعلم النموذج الشكل العام والنبرة المتوقعة للمهمة.
  2. تدريب نموذج المكافأة: هذه المرحلة هي السمة المميزة لـ RLHF. يقوم المعلقون البشريون بمراجعة المخرجات المتعددة التي يولدها النموذج لنفس المدخلات وتصنيفها من الأفضل إلى الأسوأ. ينتج عن جهود تصنيف البيانات هذه مجموعة بيانات من التفضيلات. يتم تدريب شبكة عصبية منفصلة، تسمى نموذج المكافأة، على بيانات المقارنة هذه للتنبؤ بنتيجة عددية تعكس الحكم البشري. الأدوات المتاحة على Ultralytics يمكنها تبسيط إدارة عمليات سير العمل الخاصة بالتعليقات التوضيحية.
  3. تحسين التعلم المعزز: أخيرًا، يعمل النموذج الأصلي كوكيل ذكاء اصطناعي ضمن بيئة التعلم المعزز. باستخدام نموذج المكافأة كدليل، تقوم خوارزميات التحسين مثل تحسين السياسة القريبة (PPO) بتعديل معلمات النموذج لتعظيم المكافأة المتوقعة. تعمل هذه الخطوة على مواءمة سياسة النموذج مع التفضيلات البشرية المكتسبة ، مما يشجع السلوكيات المفيدة والآمنة ويثبط النتائج السامة أو غير المنطقية.

تطبيقات واقعية

أثبتت RLHF أهميتها الحاسمة في نشر أنظمة الذكاء الاصطناعي التي تتطلب معايير أمان عالية وفهمًا دقيقًا للتفاعل البشري.

  • الذكاء الاصطناعي التخاطبي وبرامج الدردشة الآلية: يتمثل التطبيق الأبرز لـ RLHF في مواءمة برامج الدردشة الآلية بحيث تكون مفيدة وغير ضارة وصادقة. من خلال معاقبة المخرجات المتحيزة أو غير الصحيحة من الناحية الواقعية أو الخطرة، يساعد RLHF في التخفيف من الهلوسة في LLMs ويقلل من خطر التحيز الخوارزمي. وهذا يضمن أن المساعدين الافتراضيين يمكنهم رفض التعليمات الضارة مع الحفاظ على فائدتهم في الاستفسارات المشروعة.
  • الروبوتات والتحكم المادي: يتجاوز RLHF النص إلى الذكاء الاصطناعي في الروبوتات، حيث يمثل تحديد وظيفة المكافأة المثالية للمهام المادية المعقدة تحديًا. على سبيل المثال، قد يتلقى الروبوت الذي يتعلم التنقل في مستودع مزدحم تعليقات من المشرفين البشريين حول المسارات الآمنة مقابل تلك التي تسببت في اضطرابات. تعمل هذه التعليقات على تحسين سياسة التحكم في الروبوت بشكل أكثر فعالية من التعلم العميق المعزز البسيط الذي يعتمد فقط على إكمال الهدف.

التعلُّم المعزز القياسي مقابل التعلُّم المعزز القياسي

من المفيد التمييز بين RLHF والتعلم التقليدي التعزيز (RL) لفهم فائدته المحددة.

  • RL القياسي: في البيئات التقليدية، غالبًا ما تكون وظيفة المكافأة مبرمجة بشكل ثابت من قبل البيئة. على سبيل المثال، في لعبة فيديو، توفر البيئة إشارة واضحة (+1 للفوز، -1 للخسارة). يقوم الوكيل بتحسين إجراءاته ضمن عملية اتخاذ القرار المحددة هذه (MDP).
  • RLHF: في العديد من السيناريوهات الواقعية، مثل كتابة قصة إبداعية أو القيادة بلطف، يكون "النجاح" أمرًا ذاتيًا. يحل RLHF هذه المشكلة عن طريق استبدال المكافأة المبرمجة بنموذج مكافأة مستمد من تفضيلات البشر. وهذا يسمح بتحسين المفاهيم المجردة مثل "الجودة" أو "الملاءمة" التي يستحيل برمجتها بشكل صريح.

دمج الإدراك مع حلقات التغذية الراجعة

في التطبيقات المرئية، غالبًا ما تعتمد الوكالات المتوافقة مع RLHF على الرؤية الحاسوبية (CV) لإدراك حالة بيئتها قبل التصرف. يعمل كاشف قوي، مثل YOLO26، كطبقة إدراك، ويوفر ملاحظات منظمة (على سبيل المثال، "تم الكشف عن عائق على بعد 3 أمتار") تستخدمها شبكة السياسات لاختيار إجراء.

يوضح Python التالي Python مفهومًا مبسطًا حيث يوفر YOLO حالة البيئة. في حلقة RLHF كاملة، تأتي إشارة "المكافأة" من نموذج تم تدريبه على ردود فعل البشر فيما يتعلق بقرارات الوكيل بناءً على بيانات الكشف هذه.

from ultralytics import YOLO

# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)

print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.

من خلال الجمع بين نماذج الإدراك القوية والسياسات المُحسّنة بفضل تعليقات البشر، يمكن للمطورين بناء أنظمة ليست ذكية فحسب، بل تتوافق أيضًا بشكل صارم مع مبادئ سلامة الذكاء الاصطناعي. وتواصل الأبحاث الجارية في مجال الرقابة القابلة للتطوير ، مثل الذكاء الاصطناعي الدستوري، تطوير هذا المجال، بهدف تقليل الاختناقات الناتجة عن التعليقات البشرية واسعة النطاق مع الحفاظ على أداء عالٍ للنماذج.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن