التعلُّم المعزز

اكتشف التعلُّم المعزز، حيث يقوم الوكلاء بتحسين الإجراءات من خلال التجربة والخطأ لتعظيم المكافآت. استكشف المفاهيم والتطبيقات والفوائد!

التعلم المعزز (RL) هو مجال من مجالات التعلم الآلي (ML) حيث يتعلم الوكيل الذكي اتخاذ القرارات المثلى من خلال التجربة والخطأ. وعلى عكس نماذج التعلّم الأخرى، لا يتم إخبار الوكيل بالإجراءات التي يجب اتخاذها. وبدلاً من ذلك، فإنه يتفاعل مع البيئة ويتلقى تغذية راجعة في شكل مكافآت أو عقوبات. يتمثل الهدف الأساسي للوكيل في تعلم استراتيجية تُعرف باسم السياسة التي تزيد من مكافأته التراكمية مع مرور الوقت. هذا النهج مستوحى من علم النفس السلوكي وهو قوي بشكل خاص لحل مشاكل اتخاذ القرارات المتسلسلة، كما هو موضح في النص التأسيسي الذي كتبه ساتون وبارتو.

كيف يعمل التعلّم المعزز

يتم تصميم عملية RLL على شكل حلقة تغذية مرتدة مستمرة تتضمن عدة مكونات رئيسية:

الوكيل: المتعلم وصانع القرار، مثل الروبوت أو برنامج تشغيل الألعاب.
البيئة: العالم الخارجي الذي يتفاعل معه الوكيل.
الحالة: لقطة للبيئة في لحظة معينة، تزود الوكيل بالمعلومات التي يحتاجها لاتخاذ القرار.
حركة: حركة يختارها الوكيل من بين مجموعة من الخيارات الممكنة.
المكافأة: إشارة رقمية يتم إرسالها من البيئة إلى الوكيل بعد كل فعل، تشير إلى مدى استصواب الفعل.

يراقب الوكيل الحالة الحالية للبيئة، وينفذ إجراءً ما، ويتلقى مكافأة مع الحالة التالية. تتكرر هذه الدورة، ومن خلال هذه التجربة، يصقل الوكيل سياسته تدريجيًا لتفضيل الإجراءات التي تؤدي إلى مكافآت أعلى على المدى الطويل. وغالبًا ما يتم وصف الإطار الرسمي لهذه المشكلة من خلال عملية قرار ماركوف (MDP). تشمل الخوارزميات الشائعة في عملية اتخاذ القرار التعلم الكمي وتدرجات السياسة.

المقارنة مع نماذج التعلم الأخرى

يتميز التعلم الآلي عن الأنواع الرئيسية الأخرى من التعلم الآلي:

التعلّم تحت الإشراف: في التعلّم الخاضع للإشراف، يتعلم النموذج من مجموعة بيانات موسومة بالكامل بالإجابات الصحيحة. على سبيل المثال، يتم تدريب نموذج تصنيف الصور على صور ذات تسميات صريحة. في المقابل، يتعلم التعلّم تحت الإشراف من إشارات المكافأة دون إشراف صريح على أفضل إجراء في كل خطوة. يمكنك استكشاف مقارنة مفصلة بين التعلم الخاضع للإشراف والتعلم غير الخاضع للإشراف.
التعلّم غير الخاضع للإشراف: ينطوي هذا النموذج على إيجاد أنماط أو هياكل خفية في البيانات غير المسماة. ويتمثل هدفه في استكشاف البيانات، مثل استخدام التجميع k-means، بدلاً من اتخاذ القرارات لتعظيم المكافأة.
التعلم المعزز العميق (DRL): التعلم المعزز العميق ليس نموذجًا مختلفًا بل هو شكل متقدم من أشكال التعلم المعزز العميق الذي يستخدم الشبكات العصبية العميقة للتعامل مع الحالات المعقدة عالية الأبعاد ومساحات العمل. وهذا يسمح للتعلم المعزز بالتوسع في حل المشاكل التي كانت تعتبر في السابق مستعصية على الحل، مثل معالجة بيانات البكسل الخام من الكاميرا للمركبات ذاتية القيادة.

التطبيقات الواقعية

حققت RL نجاحًا ملحوظًا في مجموعة متنوعة من المجالات المعقدة:

لعب الألعاب: حقق وكلاء RL أداءً خارقاً في الألعاب المعقدة. ومن الأمثلة البارزة على ذلك لعبة AlphaGo من شركة DeepMind، التي تعلمت هزيمة أفضل لاعبي لعبة Go في العالم. ومثال آخر هو عمل OpenAI على لعبة Dota 2، حيث تعلم الوكيل استراتيجيات الفريق المعقدة.
الروبوتات: تُستخدم تقنية RL لتدريب الروبوتات على أداء مهام معقدة مثل التلاعب بالأشياء والتجميع والحركة. فبدلاً من برمجته بشكل صريح، يمكن للروبوت أن يتعلم المشي أو الإمساك بالأشياء من خلال مكافأته على المحاولات الناجحة في بيئة محاكاة أو بيئة حقيقية. وهذا مجال رئيسي للبحث في مؤسسات مثل مختبر بيركلي لأبحاث الذكاء الاصطناعي (BAIR).
إدارة الموارد: تحسين العمليات في الأنظمة المعقدة، مثل إدارة تدفق حركة المرور في المدن، وموازنة الأحمال في شبكات الطاقة، وتحسين التفاعلات الكيميائية.
أنظمة التوصية: يمكن استخدام أنظمة التوصيات لتحسين تسلسل العناصر الموصى بها للمستخدم لزيادة المشاركة والرضا على المدى الطويل، بدلاً من مجرد النقرات الفورية.

الأهمية في النظام البيئي للذكاء الاصطناعي

يُعد التعلّم المعزز عنصراً حاسماً في مجال الذكاء الاصطناعي الأوسع نطاقاً، خاصةً لإنشاء أنظمة ذاتية التشغيل. في حين أن شركات مثل Ultralytics متخصصة في نماذج الذكاء الاصطناعي للرؤية مثل Ultralytics YOLO لمهام مثل اكتشاف الأجسام وتجزئة النماذج باستخدام التعلم تحت الإشراف، فإن قدرات الإدراك لهذه النماذج هي مدخلات أساسية لعوامل RL.

على سبيل المثال، قد يستخدم الروبوت نموذج YOLO للإدراك، الذي يتم نشره عبر Ultralytics HUB، لفهم محيطه ("الحالة"). ثم تستخدم سياسة RL هذه المعلومات لتحديد خطوته التالية. يعد هذا التآزر بين الرؤية الحاسوبية (CV) للإدراك و RL لاتخاذ القرار أمرًا أساسيًا لبناء أنظمة ذكية. وغالبًا ما يتم تطوير هذه الأنظمة باستخدام أطر عمل مثل PyTorch و TensorFlow، وكثيرًا ما يتم اختبارها في بيئات محاكاة موحدة مثل Gymnasium (OpenAI Gym سابقًا). ولتحسين مواءمة النموذج مع التفضيلات البشرية، تزداد أهمية تقنيات مثل التعلم المعزز من التغذية الراجعة البشرية (RLHF) في هذا المجال. يتم دفع التقدم في مجال التعلم المعزز من ردود الفعل البشرية باستمرار من قبل منظمات مثل DeepMind والمؤتمرات الأكاديمية مثل NeurIPS.

التعلُّم المعزز

حل الترخيص المرن للمؤسسات لتعزيز ابتكاراتك

تدريب نماذج الذكاء الاصطناعي في ثوانٍ مع Ultralytics YOLO

تدريب نماذج YOLO ببساطة باستخدام Ultralytics HUB

كيف يعمل التعلّم المعزز

المقارنة مع نماذج التعلم الأخرى

التطبيقات الواقعية

الأهمية في النظام البيئي للذكاء الاصطناعي

اقرأ المزيد في هذه الفئة

دليل تخطيط موارد المؤسسات التصنيعية

نظام تنفيذ التصنيع (MES): الإنتاج القائم على الذكاء الاصطناعي

فهم التصنيع المضاف: التكنولوجيا وحالات الاستخدام

انضم إلى مجتمع Ultralytics