مسرد المصطلحات

التعلم المعزز من التغذية الراجعة البشرية (RLHF)

اكتشف كيف يعمل التعلُّم المعزز من الملاحظات البشرية (RLHF) على تحسين أداء الذكاء الاصطناعي من خلال مواءمة النماذج مع القيم البشرية من أجل ذكاء اصطناعي أكثر أماناً وذكاءً.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

التعلم المعزز من التغذية الراجعة البشرية (RLHF) هو نهج مبتكر لتدريب نماذج الذكاء الاصطناعي التي تتضمن مدخلات بشرية مباشرة لتحسين أداء النموذج وتحسينه. من خلال تجاوز وظائف المكافآت التقليدية، يسمح التعلم المعزز من الملاحظات البشرية لأنظمة الذكاء الاصطناعي بالتوافق بشكل أفضل مع القيم والتفضيلات والنوايا البشرية، خاصةً في المهام المعقدة التي يمثل فيها تحديد المكافآت الصريحة تحدياً. تعمل هذه الطريقة على سد الفجوة بين التعلم الآلي والفهم البشري، مما يؤدي إلى تطبيقات ذكاء اصطناعي أكثر سهولة وسلاسة في الاستخدام.

كيف تعمل مؤسسة RLHF

ويعتمد نموذج RLHF على مبادئ التعلم المعزز، حيث يتعلم الوكيل اتخاذ القرارات من خلال التفاعل مع البيئة وتلقي التغذية الراجعة في شكل مكافآت أو عقوبات. في RLHF، يتم تعزيز حلقة التغذية الراجعة هذه من خلال دمج المقيّمين البشريين. تتضمن العملية النموذجية الخطوات التالية:

  1. يولد النموذج مخرجات: ينتج نموذج الذكاء الاصطناعي مجموعة من المخرجات لمهمة معينة، مثل توليد نص أو الإجابة على الأسئلة أو اتخاذ القرارات في بيئة محاكاة.
  2. التغذية الراجعة البشرية: يقوم المقيّمون البشريون بمراجعة هذه المخرجات وتقديم التغذية الراجعة بناءً على تفضيلاتهم أو مجموعة من الإرشادات. وغالبًا ما تكون هذه الملاحظات في شكل تصنيفات أو تقييمات تشير إلى المخرجات الأفضل وفقًا للتقييم البشري.
  3. تدريب نموذج المكافأة: يتم تدريب نموذج المكافأة على التعلم من الملاحظات البشرية. يهدف هذا النموذج إلى التنبؤ بدرجة التفضيل البشري للمخرجات المختلفة، بحيث يتعلم بفعالية ما يعتبره البشر "جيدًا" أو "سيئًا" في سياق المهمة.
  4. تحسين السياسة: يتم بعد ذلك تحسين سياسة نموذج الذكاء الاصطناعي الأصلي باستخدام خوارزميات التعلّم المعزز، مسترشدًا بنموذج المكافأة. والهدف من ذلك هو توليد مخرجات تزيد من المكافأة كما هو متوقع من قبل نموذج المكافأة، وبالتالي مواءمة سلوك الذكاء الاصطناعي مع التفضيلات البشرية.
  5. التنقيح التكراري: هذه العملية تكرارية، حيث يقوم النموذج بتوليد المخرجات باستمرار، ويتلقى ملاحظات البشر، ويقوم بتحديث نموذج المكافأة وتنقيح سياسته. تسمح هذه الحلقة التكرارية للذكاء الاصطناعي بالتحسين التدريجي وتلبية التوقعات البشرية بشكل أفضل بمرور الوقت.

تضمن هذه العملية التكرارية تطور النموذج لتلبية التوقعات البشرية بشكل أفضل مع مرور الوقت. يمكنك معرفة المزيد عن أسس التعلّم المعزز لفهم السياق الأوسع للتعلّم المعزز.

التطبيقات الرئيسية للترددات الراديوية ذات الترددات العالية

وقد أثبتت مؤسسة RLHF أنها ذات قيمة خاصة في التطبيقات التي تكون فيها مواءمة سلوك الذكاء الاصطناعي مع التفضيلات البشرية الدقيقة أمراً بالغ الأهمية. تشمل المجالات الرئيسية ما يلي:

  • نماذج اللغات الكبيرة (LLMs): تُعد RLHF مفيدة في تحسين نماذج اللغات الكبيرة مثل GPT-4 لتوليد مخرجات نصية أكثر تماسكًا وملاءمة وأمانًا. فهو يساعد في مواءمة هذه النماذج مع معايير التواصل البشري والاعتبارات الأخلاقية، وتحسين تفاعلات روبوتات الدردشة وجودة توليد النصوص.
  • أنظمة التوصيات: يمكن أن يعزز RLHF رؤى نظام التوصيات من خلال دمج ملاحظات المستخدمين لتقديم توصيات أكثر تخصيصًا وإرضاءً. وبدلاً من الاعتماد فقط على البيانات التاريخية، يمكن للتفضيلات البشرية المباشرة أن توجه النظام لفهم أذواق المستخدمين بشكل أفضل.
  • الروبوتات والأنظمة المستقلة: في مجال الروبوتات، وخاصة في البيئات المعقدة، يمكن أن يوجه الترددات الآلية ذاتية القيادة الروبوتات لأداء المهام بطرق بديهية ومريحة للبشر. على سبيل المثال، في المركبات ذاتية التحكم، يمكن أن يساعد دمج التغذية الراجعة البشرية في تحسين سلوكيات القيادة لتكون أكثر أماناً وشبيهة بالبشر.

أمثلة من العالم الحقيقي

محاذاة روبوت المحادثة

وقد استخدمت OpenAI تقنية الذكاء الاصطناعي المفتوح (OpenAI) تقنية RLHF لتحسين نماذج الذكاء الاصطناعي التخاطبية الخاصة بها، مثل ChatGPT. يقوم المقيّمون البشريون بتصنيف الردود التي يتم إنشاؤها بواسطة النموذج، مما يمكّن النظام من إنتاج مخرجات أكثر أمانًا وتماسكًا وسهولة في الاستخدام. هذا النهج يقلل بشكل كبير من المخاطر مثل الاستجابات المتحيزة أو الضارة، بما يتماشى مع مبادئ أخلاقيات الذكاء الاصطناعي ويجعل روبوتات الدردشة أكثر موثوقية ومفيدة في التفاعلات في العالم الحقيقي.

الأنظمة المستقلة

في مجال تطوير الذكاء الاصطناعي في السيارات ذاتية القيادة، يسمح نظام RLHF للمطورين بدمج ملاحظات السائقين في نماذج الذكاء الاصطناعي. على سبيل المثال، يمكن للسائقين تقييم عملية اتخاذ القرار في السيارة في سيناريوهات محاكاة مختلفة. تساعد هذه التغذية الراجعة النظام ذاتي القيادة على تعلم اتخاذ قرارات ليست آمنة فحسب، بل تتماشى أيضاً مع معايير القيادة البشرية وتوقعاتها، مما يؤدي إلى سيارات ذاتية القيادة أكثر راحة وجدارة بالثقة.

مزايا مؤسسة RLHF

تقدم مؤسسة RLHF العديد من المزايا الرئيسية:

  • تحسين التوافق مع القيم الإنسانية: من خلال الدمج المباشر للتغذية الراجعة البشرية، يضمن منتدى التعلم عن بُعد تدريب أنظمة الذكاء الاصطناعي على عكس التفضيلات البشرية والاعتبارات الأخلاقية، مما يؤدي إلى ذكاء اصطناعي أكثر مسؤولية.
  • تعزيز الأداء في المهام المعقدة: تعتبر التغذية الراجعة البشرية فعالة بشكل خاص في المهام التي يصعب فيها تحديد وظيفة مكافأة آلية واضحة. توفر التغذية الراجعة البشرية إشارة غنية ودقيقة يمكنها توجيه التعلم في هذه السيناريوهات المعقدة.
  • زيادة رضا المستخدم: تميل نماذج الذكاء الاصطناعي المُدرّبة باستخدام RLHF إلى أن تكون أكثر سهولة في الاستخدام وبديهية، مما يؤدي إلى زيادة رضا المستخدم وثقته في أنظمة الذكاء الاصطناعي.

التحديات والتوجهات المستقبلية

وعلى الرغم من مزايا الترددات الراديوية عالية السعة والوضوح، إلا أنها تنطوي أيضاً على تحديات:

  • قابلية توسيع نطاق الملاحظات البشرية: يمكن أن يستغرق جمع الملاحظات البشرية ومعالجتها وقتًا طويلاً ومكلفًا، خاصةً بالنسبة للنماذج الكبيرة والمعقدة. وتبقى قابلية التوسع تحدياً رئيسياً.
  • التحيزات المحتملة في الملاحظات البشرية: قد يقدم المقيّمون البشريون تحيزاتهم الخاصة، والتي يمكن أن تشكل نموذج الذكاء الاصطناعي بطرق غير مقصودة. يعد ضمان الحصول على تغذية راجعة متنوعة وتمثيلية أمرًا بالغ الأهمية.
  • الاتساق والموثوقية: يعد الحفاظ على الاتساق في التغذية الراجعة البشرية وضمان موثوقية نموذج المكافأة من مجالات البحث المستمرة.

وتشمل اتجاهات البحث المستقبلية تطوير أساليب أكثر كفاءة لجمع واستخدام التغذية الراجعة البشرية، والتخفيف من التحيزات، وتحسين متانة التعلّم الآلي المحسّن في مختلف التطبيقات. ويمكن لمنصات مثل Ultralytics HUB تبسيط عملية تطوير ونشر النماذج المحسّنة لتقييم الموارد البشرية في مجال العلوم والتكنولوجيا في مجال العلوم والتكنولوجيا في مجال العلوم والتكنولوجيا في مجال العلوم والتكنولوجيا في مجال العلوم والتكنولوجيا في مجال العلوم والتكنولوجيا. علاوة على ذلك، يمكن أن يؤدي دمج RLHF مع أدوات قوية مثل Ultralytics YOLO يمكن أن يؤدي إلى تطورات في التطبيقات في الوقت الحقيقي التي تتطلب اتخاذ قرارات الذكاء الاصطناعي المتوافقة مع البشر. ومع استمرار تطور إطار عمل الذكاء الاصطناعي للذكاء الاصطناعي في التطور، فإنه يبشر بالكثير من الوعود لإنشاء أنظمة ذكاء اصطناعي لا تتسم بالذكاء فحسب، بل تتماشى أيضًا مع الاحتياجات والقيم البشرية.

قراءة الكل