Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التعلم بالتقوية

استكشف المفاهيم الأساسية للتعلم المعزز (RL). تعرف على كيفية استخدام الوكلاء للتغذية الراجعة لإتقان المهام وشاهد كيف يعمل Ultralytics على تشغيل أنظمة الرؤية RL.

التعلم المعزز (RL) هو مجموعة فرعية موجهة نحو الأهداف من التعلم الآلي (ML) حيث يتعلم نظام مستقل ، يُعرف باسم الوكيل، اتخاذ القرارات من خلال تنفيذ الإجراءات وتلقي التعليقات من بيئته. على عكس التعلم الخاضع للإشراف، الذي يعتمد على مجموعات بيانات ثابتة مصنفة بالإجابات الصحيحة، تتعلم خوارزميات RL من خلال عملية ديناميكية من التجربة والخطأ. يتفاعل الوكيل مع محاكاة أو العالم الحقيقي، ويراقب عواقب أفعاله لتحديد الاستراتيجيات التي تحقق أعلى المكافآت على المدى الطويل. هذا النهج يحاكي بشكل وثيق المفهوم النفسي للتكييف التشغيلي، حيث يتم تشكيل السلوك عن طريق التعزيز الإيجابي (المكافآت) والتعزيز السلبي (العقوبات) بمرور الوقت.

المفاهيم الأساسية لدورة RL

لفهم كيفية عمل RL، من المفيد تصوره كدورة مستمرة من التفاعل. غالبًا ما يتم صياغة هذا الإطار رياضيًا على أنه عملية قرار ماركوف (MDP)، والتي تنظم عملية صنع القرار في المواقف التي تكون فيها النتائج عشوائية جزئيًا ومسيطر عليها جزئيًا من قبل صانع القرار.

تشمل المكونات الأساسية لدورة التعلم هذه ما يلي:

  • وكيل الذكاء الاصطناعي: الكيان المسؤول عن التعلم واتخاذ القرارات. إنه يدرك البيئة المحيطة ويتخذ الإجراءات اللازمة لتعظيم نجاحه التراكمي.
  • البيئة: العالم الخارجي الذي يعمل فيه الوكيل. قد يكون ذلك لعبة فيديو معقدة، أو محاكاة للسوق المالية، أو مستودع مادي في الذكاء الاصطناعي في مجال الخدمات اللوجستية.
  • الحالة: لقطة أو تمثيل للوضع الحالي. في التطبيقات المرئية، غالبًا ما يتضمن ذلك معالجة موجات الكاميرا باستخدام الرؤية الحاسوبية (CV) detect و العوائق.
  • الإجراء: الحركة أو الاختيار المحدد الذي يقوم به الوكيل. ويُشار إلى المجموعة الكاملة لجميع الحركات الممكنة بمصطلح " مساحة الإجراءات".
  • المكافأة: إشارة رقمية يتم إرسالها من البيئة إلى الوكيل بعد اتخاذ إجراء ما. تخصص وظيفة المكافأة المصممة جيدًا قيمًا إيجابية للأفعال المفيدة وعقوبات للأفعال الضارة.
  • السياسة: الاستراتيجية أو القاعدة التي يستخدمها الوكيل لتحديد الإجراء التالي بناءً على الحالة الحالية. تحدد خوارزميات مثل التعلم Q كيفية تحديث هذه السياسة وتحسينها.

تطبيقات واقعية

تجاوز التعلم المعزز مرحلة البحث النظري إلى مرحلة التطبيقات العملية عالية التأثير في مختلف الصناعات.

  • الروبوتات المتقدمة: في مجال الذكاء الاصطناعي في الروبوتات، تتيح RL للآلات إتقان المهارات الحركية المعقدة التي يصعب ترميزها. يمكن للروبوتات أن تتعلم إمساك الأشياء غير المنتظمة أو التنقل على الأراضي غير المستوية من خلال التدريب داخل محركات فيزيائية مثل NVIDIA Sim قبل نشرها في العالم الحقيقي.
  • الأنظمة المستقلة: تستخدم المركبات المستقلة RL لاتخاذ قرارات في الوقت الفعلي في حالات المرور غير المتوقعة. بينما تحدد نماذج الكشف عن الأجسام المشاة و اللافتات، تساعد خوارزميات RL في تحديد سياسات القيادة الآمنة لدمج المسارات والتنقل بين التقاطعات.
  • التحسين الاستراتيجي: اكتسبت RL اهتمامًا عالميًا عندما هزمت أنظمة مثل AlphaGoGoogle أبطال العالم البشريين في ألعاب الطاولة المعقدة. وبعيدًا عن الألعاب، تعمل هذه الوكالات على تحسين الخدمات اللوجستية الصناعية، مثل التحكم في أنظمة التبريد في مراكز البيانات لتقليل استهلاك الطاقة.

دمج الرؤية مع RL

في العديد من التطبيقات الحديثة، تكون "الحالة" التي يراقبها الوكيل مرئية. تعمل النماذج عالية الأداء مثل YOLO26 كطبقة إدراك لوكلاء RL، حيث تقوم بتحويل الصور الأولية إلى بيانات منظمة. تصبح هذه المعلومات المعالجة — مثل موقع الأجسام وفئتها — الحالة التي تستخدمها سياسة RL لاختيار الإجراء.

يوضح المثال التالي كيفية استخدام ultralytics حزمة لمعالجة إطار بيئة، وإنشاء تمثيل للحالة (على سبيل المثال، عدد الكائنات) لدورة RL نظرية.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")

# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Process the frame to extract the current 'state'
results = model(observation_frame)

# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")

التفريق بين المصطلحات ذات الصلة

من المهم التمييز بين التعلم المعزز ونماذج التعلم الآلي الأخرى:

  • مقابل التعلم الخاضع للإشراف: يتطلب التعلم الخاضع للإشراف مشرفًا خارجيًا مطلعًا لتوفير بيانات تدريب مصنفة (على سبيل المثال، "تحتوي هذه الصورة على قطة"). في المقابل، يتعلم التعلم التلقائي من عواقب أفعاله دون تصنيفات صريحة ، ويكتشف المسارات المثلى من خلال الاستكشاف.
  • مقابل التعلم غير المراقب: يركز التعلم غير المراقب على إيجاد هياكل أو أنماط خفية داخل البيانات غير المصنفة (مثل تجميع العملاء). يختلف التعلم المعزز لأنه موجه بشكل صريح نحو الهدف، ويركز على تعظيم إشارة المكافأة بدلاً من مجرد وصف بنية البيانات.

مع زيادة القوة الحاسوبية، تعمل تقنيات مثل التعلم المعزز من ردود فعل البشر (RLHF) على تحسين طريقة تعلم الوكلاء، ومواءمة أهدافهم بشكل أوثق مع القيم البشرية المعقدة ومعايير السلامة . غالبًا ما يستخدم الباحثون بيئات موحدة مثل Gymnasium لتقييم هذه الخوارزميات وتحسينها. بالنسبة للفرق التي تسعى إلى إدارة مجموعات البيانات المطلوبة لطبقات الإدراك لهذه الوكلاء، توفر Ultralytics أدوات شاملة للتعليق وإدارة النماذج.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن