المسرد

التعلُّم المعزز

استكشف التعلم المعزز: تحويل الذكاء الاصطناعي مع اتخاذ القرارات المستقلة باستخدام مفاهيم وتطبيقات التعلم المعزز في الروبوتات والألعاب والصناعة.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

التعلّم المعزز (RL) هو مجال فرعي للتعلّم الآلي حيث يتعلم الوكيل اتخاذ القرارات من خلال تنفيذ إجراءات في بيئة ما لتحقيق أهداف معينة. وعلى عكس التعلُّم تحت الإشراف، حيث يتعلم النموذج من مجموعة بيانات موسومة، يعتمد التعلُّم المعزز على نظام من المكافآت والعقوبات لتوجيه الوكيل نحو السلوك الأمثل.

كيف يعمل التعلّم المعزز

في التعلم المعزز، يتفاعل العامل مع البيئة في خطوات زمنية منفصلة. وفي كل خطوة، يتلقى الوكيل تغذية راجعة في شكل مكافأة، وهي قيمة عددية. الهدف هو تعظيم المكافأة التراكمية مع مرور الوقت. يختار الوكيل الإجراءات بناءً على سياسة قد تكون حتمية أو عشوائية. بمرور الوقت، يتم تحسين السياسة مع مرور الوقت حيث يتعلم الوكيل من عواقب أفعاله.

تشمل العناصر الرئيسية لنظام RLL ما يلي:

  • الوكيل: المتعلم أو صانع القرار.
  • البيئة: كل ما يتفاعل معه الوكيل.
  • الإجراءات: جميع الحركات الممكنة التي يمكن للوكيل القيام بها.
  • المكافآت: التغذية الراجعة من البيئة لتقييم الإجراءات.
  • الحالة: تمثيل للوضع الحالي للبيئة.
  • السياسة: استراتيجية يستخدمها الوكيل لتحديد الإجراءات بناءً على الحالة الحالية.

مفاهيم RL الهامة

  • دالة القيمة: تقدّر المكافأة التراكمية المتوقعة من حالة معينة أو زوج من الحالة والفعل.
  • التعلّم الكمي: خوارزمية RL شائعة حيث يتعلم الوكيل قيمة الإجراءات مباشرةً.
  • الاستكشاف مقابل الاستغلال: الموازنة بين الحاجة إلى استكشاف استراتيجيات جديدة واستغلال الاستراتيجيات الناجحة المعروفة.
  • تعلم الفروق الزمنية: يجمع بين أفكار من أساليب مونت كارلو والبرمجة الديناميكية.

التمييز بين RL والمصطلحات ذات الصلة

يختلف التعلم المعزز عن التعلم تحت الإشراف، حيث يتعلم النموذج من أزواج المدخلات والمخرجات. بدلاً من ذلك، يركز التعلم المعزز على التعلم من التفاعل مع البيئة. وهو يختلف أيضًا عن التعلّم غير الخاضع للإشراف حيث لا تتوفر تسميات صريحة لمكافأة التغذية الراجعة.

تطبيقات التعلم المعزز

السيارات ذاتية القيادة

يُعد التعلم المعزز أمراً بالغ الأهمية في تطوير الذكاء الاصطناعي للسيارات ذاتية القيادة. تساعد خوارزميات التعلم المعزز هذه المركبات على تعلم استراتيجيات القيادة المثلى من خلال بيئات المحاكاة قبل الاختبار الفعلي.

الروبوتات

يتيح التعلم المعزز للروبوتات تعلم المهام المعقدة عن طريق التجربة والخطأ. على سبيل المثال، يمكن للروبوتات في المستودعات أن تتعلم كيفية التعامل مع مختلف الأشياء من خلال التعلم المعزز، مما يزيد من الكفاءة والدقة.

اللعب

وقد تم تطبيق تقنية RLL الشهيرة في الألعاب، حيث يتعلم الوكلاء لعب ألعاب مثل جو والشطرنج وإتقانها، كما هو موضح في لعبة AlphaGo من DeepMind.

RL في الأعمال والصناعة

يمكن للتعلم المعزز تحسين عمليات مثل إدارة المخزون والخدمات اللوجستية. في Ultralytics، تساعد الأنظمة القائمة على التعلم المعزز في اتخاذ قرارات قائمة على البيانات لتعزيز الكفاءة وفعالية التكلفة في سلاسل التوريد.

موارد لمزيد من الاستكشاف

يبرز التعلّم المعزز كطريقة قوية لتطوير أنظمة ذكية قادرة على اتخاذ القرارات بشكل مستقل، مما يجعله حجر الزاوية في التقدم في مجال الذكاء الاصطناعي والتعلم الآلي.

قراءة الكل