مسرد المصطلحات

التعلُّم المعزز

اكتشف التعلُّم المعزز، حيث يقوم الوكلاء بتحسين الإجراءات من خلال التجربة والخطأ لتعظيم المكافآت. استكشف المفاهيم والتطبيقات والفوائد!

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

التعلّم المعزز (RL) هو مجال متميز ضمن تعلّم الآلة (ML) حيث يتعلم الوكيل اتخاذ القرارات من خلال تنفيذ إجراءات في بيئة ما لتحقيق هدف محدد. على عكس نماذج التعلم الآلي الأخرى، لا يتم إخبار وكلاء التعلم المعزز صراحةً بالإجراءات التي يجب اتخاذها. وبدلاً من ذلك، يتعلمون من خلال التجربة والخطأ، ويتلقون تغذية راجعة في شكل مكافآت أو عقوبات بناءً على أفعالهم. ويتمثل الهدف الأساسي للوكيل في تعلم استراتيجية تُعرف باسم السياسة التي تزيد من مكافأته التراكمية مع مرور الوقت.

المفاهيم الأساسية في التعلم المعزز

ينطوي فهم RL على عدة مكونات رئيسية:

  • الوكيل: المتعلم أو صانع القرار الذي يتفاعل مع البيئة.
  • البيئة: العالم الخارجي أو النظام الخارجي الذي يتفاعل معه الوكيل. وهو يوفر التغذية الراجعة للوكيل.
  • الحالة: تمثيل للوضع الحالي أو التكوين الحالي للبيئة. في تطبيقات الرؤية الحاسوبية، يمكن اشتقاق الحالة من بيانات الصورة.
  • الفعل: حركة أو قرار يتخذه العميل ويؤثر على حالة البيئة.
  • المكافأة: إشارة تغذية راجعة رقمية من البيئة تشير إلى مدى جودة أو سوء الفعل الأخير للوكيل فيما يتعلق بالهدف.
  • السياسة: الاستراتيجية أو المخطط الذي يستخدمه الوكيل لتحديد الإجراء التالي بناءً على الحالة الحالية. الهدف من RL هو إيجاد السياسة المثلى.

كيف يعمل التعلّم المعزز

عملية RL هي عملية تكرارية. يراقب الوكيل الحالة الحالية للبيئة ويختار إجراءً بناءً على سياسته الحالية وينفذ هذا الإجراء. تنتقل البيئة إلى حالة جديدة وتوفر إشارة مكافأة للوكيل. يستخدم الوكيل إشارة المكافأة هذه لتحديث سياسته بهدف الحصول على المزيد من المكافآت في المستقبل. أحد الجوانب المهمة في هذه العملية هو التوازن بين الاستكشاف (تجربة إجراءات جديدة لاكتشاف مكافآت أفضل محتملة) والاستغلال (استخدام إجراءات معروفة تحقق مكافآت عالية). غالبًا ما يتم إضفاء الطابع الرسمي على حلقة التعلم هذه باستخدام عمليات اتخاذ القرار ماركوف (MDPs).

مقارنة مع أنواع التعلم الآلي الأخرى

يختلف RL بشكل كبير عن نماذج التعلم الآلي الأولية الأخرى:

  • التعلّم تحت الإشراف: يتعلم من مجموعات البيانات المصنفة حيث يتم توفير المخرجات الصحيحة لكل مدخل. يتعلم التعلّم تحت الإشراف: يتعلم من إشارات المكافأة دون تسميات صريحة للإجراءات الصحيحة.
  • التعلّم غير الخاضع للإشراف: البحث عن الأنماط والبنى في البيانات غير المعنونة. يركز التعلم غير الخاضع للإشراف على التعلم الموجه نحو الهدف من خلال التفاعل والتغذية الراجعة.

في حين أن تقنيات التعلم العميق (DL)، مثل استخدام الشبكات العصبية (NN)، غالبًا ما تُستخدم ضمن التعلم العميق المعزز (المعروف باسم التعلم المعزز العميق) للتعامل مع مساحات الحالة المعقدة (مثل الصور) والسياسات التقريبية أو دوال القيمة، فإن آلية التعلم الأساسية القائمة على المكافآت تظل متميزة.

التطبيقات الواقعية

أظهر RL نجاحًا ملحوظًا في مختلف المجالات المعقدة:

  1. لعب الألعاب: لقد حقق وكلاء RL أداءً خارقاً في الألعاب المعقدة مثل لعبة جو(AlphaGo من DeepMind) وألعاب الفيديو المختلفة(OpenAI Five في لعبة Dota 2). يتعلم هؤلاء الوكلاء استراتيجيات معقدة من خلال اللعب الذاتي، بما يتجاوز القدرات البشرية بكثير. تم استكشاف هذه القدرة في الذكاء الاصطناعي في ألعاب الفيديو.
  2. الروبوتات: تُستخدم تقنية RL لتدريب الروبوتات على أداء مهام مثل الحركة والتلاعب بالأشياء والتجميع. يمكن أن تتعلم الروبوتات المهارات الحركية المعقدة في بيئات المحاكاة أو مباشرةً من خلال التفاعل في العالم الحقيقي، والتكيف مع الظروف غير المتوقعة. يمكنك معرفة المزيد عن فهم تكامل الروبوتات.
  3. المركبات ذاتية القيادة: يمكن استخدام خوارزميات RL لتحسين سياسات القيادة، مثل اتخاذ القرارات الخاصة بتغيير المسارات أو الاندماج أو التنقل في التقاطعات، مما يساهم في التطورات التي تمت مناقشتها في الذكاء الاصطناعي في السيارات ذاتية القيادة.
  4. أنظمة التوصيات: يمكن لـ RL تخصيص التوصيات من خلال تعلم تفضيلات المستخدم بناءً على التفاعلات والتعليقات بمرور الوقت، والتكيف ديناميكيًا مع الأذواق المتغيرة. تعرف على المزيد حول أنظمة التوصيات.

التعلم المعزز والرؤية الحاسوبية

تلعب الرؤية الحاسوبية دوراً حاسماً في العديد من تطبيقات حلول التحكم عن بُعد في العالم الحقيقي، خاصةً في مجال الروبوتات والأنظمة ذاتية القيادة. نماذج مثل Ultralytics YOLO أن تعالج المدخلات المرئية (على سبيل المثال، موجزات الكاميرا) لاستخراج المعلومات ذات الصلة بالبيئة، مما يشكل تمثيل "الحالة" الذي يستخدمه عامل RL. يتيح ذلك للوكلاء إدراك محيطهم واتخاذ قرارات مستنيرة بناءً على البيانات المرئية. وغالبًا ما تُستخدم أدوات مثل OpenAI Gym وأجهزة المحاكاة المتخصصة لتدريب وكلاء RL القائم على الرؤية. بينما تركز نماذج Ultralytics في المقام الأول على مهام الإدراك من خلال التعلم تحت الإشراف، يمكن أن تكون مخرجاتها بمثابة مدخلات حيوية لأنظمة RL التي تتحكم في العوامل المادية أو تتنقل في البيئات المرئية المعقدة. يمكن إدارة تدريب ونشر مثل هذه الأنظمة المعقدة باستخدام منصات مثل Ultralytics HUB.

للحصول على فهم أساسي لمفاهيم التعلم المعزز، يوصى بشدة بمصادر مثل الفصول التمهيدية من كتاب ساتون وبارتو عن التعلم المعزز.

قراءة الكل