اكتشف التعلُّم المعزز، حيث يقوم الوكلاء بتحسين الإجراءات من خلال التجربة والخطأ لتعظيم المكافآت. استكشف المفاهيم والتطبيقات والفوائد!
التعلم المعزز (RL) هو مجال من مجالات التعلم الآلي (ML) حيث يتعلم الوكيل الذكي اتخاذ القرارات المثلى من خلال التجربة والخطأ. وعلى عكس نماذج التعلّم الأخرى، لا يتم إخبار الوكيل بالإجراءات التي يجب اتخاذها. وبدلاً من ذلك، فإنه يتفاعل مع البيئة ويتلقى تغذية راجعة في شكل مكافآت أو عقوبات. يتمثل الهدف الأساسي للوكيل في تعلم استراتيجية تُعرف باسم السياسة التي تزيد من مكافأته التراكمية مع مرور الوقت. هذا النهج مستوحى من علم النفس السلوكي وهو قوي بشكل خاص لحل مشاكل اتخاذ القرارات المتسلسلة، كما هو موضح في النص التأسيسي الذي كتبه ساتون وبارتو.
يتم تصميم عملية RLL على شكل حلقة تغذية مرتدة مستمرة تتضمن عدة مكونات رئيسية:
يراقب الوكيل الحالة الحالية للبيئة، وينفذ إجراءً ما، ويتلقى مكافأة مع الحالة التالية. تتكرر هذه الدورة، ومن خلال هذه التجربة، يصقل الوكيل سياسته تدريجيًا لتفضيل الإجراءات التي تؤدي إلى مكافآت أعلى على المدى الطويل. وغالبًا ما يتم وصف الإطار الرسمي لهذه المشكلة من خلال عملية قرار ماركوف (MDP). تشمل الخوارزميات الشائعة في عملية اتخاذ القرار التعلم الكمي وتدرجات السياسة.
يتميز التعلم الآلي عن الأنواع الرئيسية الأخرى من التعلم الآلي:
حققت RL نجاحًا ملحوظًا في مجموعة متنوعة من المجالات المعقدة:
يُعد التعلّم المعزز عنصراً حاسماً في مجال الذكاء الاصطناعي الأوسع نطاقاً، خاصةً لإنشاء أنظمة ذاتية التشغيل. في حين أن شركات مثل Ultralytics متخصصة في نماذج الذكاء الاصطناعي للرؤية مثل Ultralytics YOLO لمهام مثل اكتشاف الأجسام وتجزئة النماذج باستخدام التعلم تحت الإشراف، فإن قدرات الإدراك لهذه النماذج هي مدخلات أساسية لعوامل RL.
على سبيل المثال، قد يستخدم الروبوت نموذج YOLO للإدراك، الذي يتم نشره عبر Ultralytics HUB، لفهم محيطه ("الحالة"). ثم تستخدم سياسة RL هذه المعلومات لتحديد خطوته التالية. يعد هذا التآزر بين الرؤية الحاسوبية (CV) للإدراك و RL لاتخاذ القرار أمرًا أساسيًا لبناء أنظمة ذكية. وغالبًا ما يتم تطوير هذه الأنظمة باستخدام أطر عمل مثل PyTorch و TensorFlow، وكثيرًا ما يتم اختبارها في بيئات محاكاة موحدة مثل Gymnasium (OpenAI Gym سابقًا). ولتحسين مواءمة النموذج مع التفضيلات البشرية، تزداد أهمية تقنيات مثل التعلم المعزز من التغذية الراجعة البشرية (RLHF) في هذا المجال. يتم دفع التقدم في مجال التعلم المعزز من ردود الفعل البشرية باستمرار من قبل منظمات مثل DeepMind والمؤتمرات الأكاديمية مثل NeurIPS.