اكتشف التعلُّم المعزز، حيث يقوم الوكلاء بتحسين الإجراءات من خلال التجربة والخطأ لتعظيم المكافآت. استكشف المفاهيم والتطبيقات والفوائد!
التعلّم المعزز (RL) هو مجال متميز ضمن تعلّم الآلة (ML) حيث يتعلم الوكيل اتخاذ القرارات من خلال تنفيذ إجراءات في بيئة ما لتحقيق هدف محدد. على عكس نماذج التعلم الآلي الأخرى، لا يتم إخبار وكلاء التعلم المعزز صراحةً بالإجراءات التي يجب اتخاذها. وبدلاً من ذلك، يتعلمون من خلال التجربة والخطأ، ويتلقون تغذية راجعة في شكل مكافآت أو عقوبات بناءً على أفعالهم. ويتمثل الهدف الأساسي للوكيل في تعلم استراتيجية تُعرف باسم السياسة التي تزيد من مكافأته التراكمية مع مرور الوقت.
ينطوي فهم RL على عدة مكونات رئيسية:
عملية RL هي عملية تكرارية. يراقب الوكيل الحالة الحالية للبيئة ويختار إجراءً بناءً على سياسته الحالية وينفذ هذا الإجراء. تنتقل البيئة إلى حالة جديدة وتوفر إشارة مكافأة للوكيل. يستخدم الوكيل إشارة المكافأة هذه لتحديث سياسته بهدف الحصول على المزيد من المكافآت في المستقبل. أحد الجوانب المهمة في هذه العملية هو التوازن بين الاستكشاف (تجربة إجراءات جديدة لاكتشاف مكافآت أفضل محتملة) والاستغلال (استخدام إجراءات معروفة تحقق مكافآت عالية). غالبًا ما يتم إضفاء الطابع الرسمي على حلقة التعلم هذه باستخدام عمليات اتخاذ القرار ماركوف (MDPs).
يختلف RL بشكل كبير عن نماذج التعلم الآلي الأولية الأخرى:
في حين أن تقنيات التعلم العميق (DL)، مثل استخدام الشبكات العصبية (NN)، غالبًا ما تُستخدم ضمن التعلم العميق المعزز (المعروف باسم التعلم المعزز العميق) للتعامل مع مساحات الحالة المعقدة (مثل الصور) والسياسات التقريبية أو دوال القيمة، فإن آلية التعلم الأساسية القائمة على المكافآت تظل متميزة.
أظهر RL نجاحًا ملحوظًا في مختلف المجالات المعقدة:
تلعب الرؤية الحاسوبية دوراً حاسماً في العديد من تطبيقات حلول التحكم عن بُعد في العالم الحقيقي، خاصةً في مجال الروبوتات والأنظمة ذاتية القيادة. نماذج مثل Ultralytics YOLO أن تعالج المدخلات المرئية (على سبيل المثال، موجزات الكاميرا) لاستخراج المعلومات ذات الصلة بالبيئة، مما يشكل تمثيل "الحالة" الذي يستخدمه عامل RL. يتيح ذلك للوكلاء إدراك محيطهم واتخاذ قرارات مستنيرة بناءً على البيانات المرئية. وغالبًا ما تُستخدم أدوات مثل OpenAI Gym وأجهزة المحاكاة المتخصصة لتدريب وكلاء RL القائم على الرؤية. بينما تركز نماذج Ultralytics في المقام الأول على مهام الإدراك من خلال التعلم تحت الإشراف، يمكن أن تكون مخرجاتها بمثابة مدخلات حيوية لأنظمة RL التي تتحكم في العوامل المادية أو تتنقل في البيئات المرئية المعقدة. يمكن إدارة تدريب ونشر مثل هذه الأنظمة المعقدة باستخدام منصات مثل Ultralytics HUB.
للحصول على فهم أساسي لمفاهيم التعلم المعزز، يوصى بشدة بمصادر مثل الفصول التمهيدية من كتاب ساتون وبارتو عن التعلم المعزز.