مسرد المصطلحات

التعلُّم المعزز

اكتشف التعلُّم المعزز، حيث يقوم الوكلاء بتحسين الإجراءات من خلال التجربة والخطأ لتعظيم المكافآت. استكشف المفاهيم والتطبيقات والفوائد!

التعلم المعزز (RL) هو مجال من مجالات التعلم الآلي (ML) حيث يتعلم الوكيل الذكي اتخاذ القرارات المثلى من خلال التجربة والخطأ. وعلى عكس نماذج التعلّم الأخرى، لا يتم إخبار الوكيل بالإجراءات التي يجب اتخاذها. وبدلاً من ذلك، فإنه يتفاعل مع البيئة ويتلقى تغذية راجعة في شكل مكافآت أو عقوبات. يتمثل الهدف الأساسي للوكيل في تعلم استراتيجية تُعرف باسم السياسة التي تزيد من مكافأته التراكمية مع مرور الوقت. هذا النهج مستوحى من علم النفس السلوكي وهو قوي بشكل خاص لحل مشاكل اتخاذ القرارات المتسلسلة، كما هو موضح في النص التأسيسي الذي كتبه ساتون وبارتو.

كيف يعمل التعلّم المعزز

يتم تصميم عملية RLL على شكل حلقة تغذية مرتدة مستمرة تتضمن عدة مكونات رئيسية:

  • الوكيل: المتعلم وصانع القرار، مثل الروبوت أو برنامج تشغيل الألعاب.
  • البيئة: العالم الخارجي الذي يتفاعل معه الوكيل.
  • الحالة: لقطة للبيئة في لحظة معينة، تزود الوكيل بالمعلومات التي يحتاجها لاتخاذ القرار.
  • حركة: حركة يختارها الوكيل من بين مجموعة من الخيارات الممكنة.
  • المكافأة: إشارة رقمية يتم إرسالها من البيئة إلى الوكيل بعد كل فعل، تشير إلى مدى استصواب الفعل.

يراقب الوكيل الحالة الحالية للبيئة، وينفذ إجراءً ما، ويتلقى مكافأة مع الحالة التالية. تتكرر هذه الدورة، ومن خلال هذه التجربة، يصقل الوكيل سياسته تدريجيًا لتفضيل الإجراءات التي تؤدي إلى مكافآت أعلى على المدى الطويل. وغالبًا ما يتم وصف الإطار الرسمي لهذه المشكلة من خلال عملية قرار ماركوف (MDP). تشمل الخوارزميات الشائعة في عملية اتخاذ القرار التعلم الكمي وتدرجات السياسة.

المقارنة مع نماذج التعلم الأخرى

يتميز التعلم الآلي عن الأنواع الرئيسية الأخرى من التعلم الآلي:

التطبيقات الواقعية

حققت RL نجاحًا ملحوظًا في مجموعة متنوعة من المجالات المعقدة:

  • لعب الألعاب: حقق وكلاء RL أداءً خارقاً في الألعاب المعقدة. ومن الأمثلة البارزة على ذلك لعبة AlphaGo من شركة DeepMind، التي تعلمت هزيمة أفضل لاعبي لعبة Go في العالم. ومثال آخر هو عمل OpenAI على لعبة Dota 2، حيث تعلم الوكيل استراتيجيات الفريق المعقدة.
  • الروبوتات: تُستخدم تقنية RL لتدريب الروبوتات على أداء مهام معقدة مثل التلاعب بالأشياء والتجميع والحركة. فبدلاً من برمجته بشكل صريح، يمكن للروبوت أن يتعلم المشي أو الإمساك بالأشياء من خلال مكافأته على المحاولات الناجحة في بيئة محاكاة أو بيئة حقيقية. وهذا مجال رئيسي للبحث في مؤسسات مثل مختبر بيركلي لأبحاث الذكاء الاصطناعي (BAIR).
  • إدارة الموارد: تحسين العمليات في الأنظمة المعقدة، مثل إدارة تدفق حركة المرور في المدن، وموازنة الأحمال في شبكات الطاقة، وتحسين التفاعلات الكيميائية.
  • أنظمة التوصية: يمكن استخدام أنظمة التوصيات لتحسين تسلسل العناصر الموصى بها للمستخدم لزيادة المشاركة والرضا على المدى الطويل، بدلاً من مجرد النقرات الفورية.

الأهمية في النظام البيئي للذكاء الاصطناعي

يُعد التعلّم المعزز عنصراً حاسماً في مجال الذكاء الاصطناعي الأوسع نطاقاً، خاصةً لإنشاء أنظمة ذاتية التشغيل. في حين أن شركات مثل Ultralytics متخصصة في نماذج الذكاء الاصطناعي للرؤية مثل Ultralytics YOLO لمهام مثل اكتشاف الأجسام وتجزئة النماذج باستخدام التعلم تحت الإشراف، فإن قدرات الإدراك لهذه النماذج هي مدخلات أساسية لعوامل RL.

على سبيل المثال، قد يستخدم الروبوت نموذج YOLO للإدراك، الذي يتم نشره عبر Ultralytics HUB، لفهم محيطه ("الحالة"). ثم تستخدم سياسة RL هذه المعلومات لتحديد خطوته التالية. يعد هذا التآزر بين الرؤية الحاسوبية (CV) للإدراك و RL لاتخاذ القرار أمرًا أساسيًا لبناء أنظمة ذكية. وغالبًا ما يتم تطوير هذه الأنظمة باستخدام أطر عمل مثل PyTorch و TensorFlow، وكثيرًا ما يتم اختبارها في بيئات محاكاة موحدة مثل Gymnasium (OpenAI Gym سابقًا). ولتحسين مواءمة النموذج مع التفضيلات البشرية، تزداد أهمية تقنيات مثل التعلم المعزز من التغذية الراجعة البشرية (RLHF) في هذا المجال. يتم دفع التقدم في مجال التعلم المعزز من ردود الفعل البشرية باستمرار من قبل منظمات مثل DeepMind والمؤتمرات الأكاديمية مثل NeurIPS.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة