استكشف التعلم المعزز العميق (DRL) وكيف يجمع بين اتخاذ القرارات بالذكاء الاصطناعي والتعلم العميق. تعلم كيفية استخدام Ultralytics كطبقة إدراك اليوم.
التعلم المعزز العميق (DRL) هو مجموعة فرعية متقدمة من الذكاء الاصطناعي (AI) تجمع بين قدرات صنع القرار في التعلم المعزز والقوة الإدراكية للتعلم العميق (DL). في حين أن التعلم المعزز التقليدي يعتمد على طرق جدولية لربط المواقف بالأفعال، فإن هذه الطرق تواجه صعوبات عندما تكون البيئة معقدة أو بصرية. يتغلب DRL على هذه المشكلة باستخدام الشبكات العصبية لتفسير البيانات المدخلة عالية الأبعاد ، مثل إطارات الفيديو أو قراءات المستشعرات، مما يمكّن الآلات من تعلم استراتيجيات فعالة مباشرة من التجربة الخام دون تعليمات بشرية صريحة.
في نظام DRL، يتفاعل وكيل الذكاء الاصطناعي مع البيئة في خطوات زمنية منفصلة. في كل خطوة، يراقب الوكيل "الحالة" الحالية، ويختار إجراءً بناءً على سياسة، ويتلقى إشارة مكافأة تشير إلى نجاح أو فشل هذا الإجراء. الهدف الأساسي هو تعظيم المكافأة التراكمية بمرور الوقت.
يشير المكون "العميق" إلى استخدام الشبكات العصبية العميقة لتقريب السياسة (استراتيجية التصرف) أو وظيفة القيمة (المكافأة المستقبلية المقدرة). وهذا يسمح للوكيل بمعالجة البيانات غير المنظمة، باستخدام الرؤية الحاسوبية (CV) لـ "رؤية" البيئة تمامًا مثل الإنسان. يتم تشغيل هذه القدرة بواسطة أطر عمل مثل PyTorch أو TensorFlow، التي تسهل تدريب هذه الشبكات المعقدة.
تجاوزت DRL البحث النظري إلى تطبيقات عملية عالية التأثير في مختلف الصناعات:
بالنسبة للعديد من تطبيقات DRL، تكون "الحالة" مرئية. تعمل النماذج عالية السرعة كعيون للوكيل، حيث تحول الصور الأولية إلى بيانات منظمة يمكن لشبكة السياسات العمل عليها. يوضح المثال التالي كيف يعمل نموذج YOLO26 كطبقة إدراك للوكيل، حيث يستخرج الملاحظات (مثل عدد العوائق) من البيئة.
from ultralytics import YOLO
# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")
# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Perform inference to extract the state (detected objects)
results = model(observation_frame)
# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")
من المفيد التفريق بين التعلّم المعزز العميق والمصطلحات المشابهة لفهم موقعه الفريد في مشهد الذكاء الاصطناعي:
يمكن للمطورين الذين يسعون إلى إدارة مجموعات البيانات المطلوبة لطبقات الإدراك في أنظمة DRL الاستفادة من Ultralytics التي تبسط عمليات التعليق التوضيحي والتدريب السحابي . بالإضافة إلى ذلك، غالبًا ما يستخدم الباحثون بيئات موحدة مثل Gymnasium لمقارنة خوارزميات DRL الخاصة بهم مع المعايير الأساسية المعمول بها.