Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التعلم المعزز العميق

استكشف التعلم المعزز العميق (DRL) وكيف يجمع بين اتخاذ القرارات بالذكاء الاصطناعي والتعلم العميق. تعلم كيفية استخدام Ultralytics كطبقة إدراك اليوم.

التعلم المعزز العميق (DRL) هو مجموعة فرعية متقدمة من الذكاء الاصطناعي (AI) تجمع بين قدرات صنع القرار في التعلم المعزز والقوة الإدراكية للتعلم العميق (DL). في حين أن التعلم المعزز التقليدي يعتمد على طرق جدولية لربط المواقف بالأفعال، فإن هذه الطرق تواجه صعوبات عندما تكون البيئة معقدة أو بصرية. يتغلب DRL على هذه المشكلة باستخدام الشبكات العصبية لتفسير البيانات المدخلة عالية الأبعاد ، مثل إطارات الفيديو أو قراءات المستشعرات، مما يمكّن الآلات من تعلم استراتيجيات فعالة مباشرة من التجربة الخام دون تعليمات بشرية صريحة.

الآلية الأساسية لـ DRL

في نظام DRL، يتفاعل وكيل الذكاء الاصطناعي مع البيئة في خطوات زمنية منفصلة. في كل خطوة، يراقب الوكيل "الحالة" الحالية، ويختار إجراءً بناءً على سياسة، ويتلقى إشارة مكافأة تشير إلى نجاح أو فشل هذا الإجراء. الهدف الأساسي هو تعظيم المكافأة التراكمية بمرور الوقت.

يشير المكون "العميق" إلى استخدام الشبكات العصبية العميقة لتقريب السياسة (استراتيجية التصرف) أو وظيفة القيمة (المكافأة المستقبلية المقدرة). وهذا يسمح للوكيل بمعالجة البيانات غير المنظمة، باستخدام الرؤية الحاسوبية (CV) لـ "رؤية" البيئة تمامًا مثل الإنسان. يتم تشغيل هذه القدرة بواسطة أطر عمل مثل PyTorch أو TensorFlow، التي تسهل تدريب هذه الشبكات المعقدة.

تطبيقات واقعية

تجاوزت DRL البحث النظري إلى تطبيقات عملية عالية التأثير في مختلف الصناعات:

  • الروبوتات المتقدمة: في مجال الذكاء الاصطناعي في الروبوتات، تتيح DRL للآلات إتقان المهارات الحركية المعقدة التي يصعب ترميزها. يمكن للروبوتات تعلم إمساك الأشياء غير المنتظمة أو عبور التضاريس غير المستوية من خلال تحسين حركاتها داخل محركات فيزيائية مثل NVIDIA Sim. وغالبًا ما يتضمن ذلك التدريب على البيانات الاصطناعية قبل نشر السياسة على الأجهزة المادية.
  • القيادة الذاتية: تستفيد المركبات الذاتية من DRL لاتخاذ قرارات في الوقت الفعلي في حالات المرور غير المتوقعة. بينما تحدد نماذج الكشف عن الأجسام المشاة و اللافتات، تستخدم خوارزميات DRL تلك المعلومات لتحديد سياسات القيادة الآمنة لدمج المسارات، والتنقل في التقاطعات ، والتحكم في السرعة، مما يؤدي إلى إدارة فعالة لزمن الاستدلال المطلوب للسلامة.

الرؤية كمراقب للدولة

بالنسبة للعديد من تطبيقات DRL، تكون "الحالة" مرئية. تعمل النماذج عالية السرعة كعيون للوكيل، حيث تحول الصور الأولية إلى بيانات منظمة يمكن لشبكة السياسات العمل عليها. يوضح المثال التالي كيف يعمل نموذج YOLO26 كطبقة إدراك للوكيل، حيث يستخرج الملاحظات (مثل عدد العوائق) من البيئة.

from ultralytics import YOLO

# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects)
results = model(observation_frame)

# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

التمييز بين DRL والمفاهيم ذات الصلة

من المفيد التفريق بين التعلّم المعزز العميق والمصطلحات المشابهة لفهم موقعه الفريد في مشهد الذكاء الاصطناعي:

  • التعلم المعزز (RL): التعلم المعزز القياسي هو المفهوم الأساسي، ولكنه يعتمد عادةً على جداول البحث (مثل جداول Q) التي تصبح غير عملية في حالة المساحات الكبيرة. يحل DRL هذه المشكلة باستخدام التعلم العميق لتقريب الوظائف، مما يتيح له معالجة المدخلات المعقدة مثل الصور.
  • التعلم المعزز من ردود فعل البشر (RLHF): بينما يعمل DRL عادةً على تحسين وظيفة المكافأة المحددة رياضيًا (مثل النقاط في اللعبة)، يعمل RLHF على تحسين النماذج — وتحديدًا نماذج اللغة الكبيرة (LLMs)— باستخدام التفضيلات البشرية الذاتية لمواءمة سلوك الذكاء الاصطناعي مع القيم البشرية، وهي تقنية شاع استخدامها من قبل مجموعات بحثية مثل OpenAI.
  • التعلم غير المراقب: تبحث الطرق غير المراقبة عن الأنماط الخفية في البيانات دون ردود فعل صريحة. في المقابل، فإن DRL موجه نحو الأهداف، مدفوع بإشارة مكافأة توجه الوكيل بنشاط نحو هدف محدد، كما تمت مناقشته في النصوص الأساسية لسوتون وبارتو.

يمكن للمطورين الذين يسعون إلى إدارة مجموعات البيانات المطلوبة لطبقات الإدراك في أنظمة DRL الاستفادة من Ultralytics التي تبسط عمليات التعليق التوضيحي والتدريب السحابي . بالإضافة إلى ذلك، غالبًا ما يستخدم الباحثون بيئات موحدة مثل Gymnasium لمقارنة خوارزميات DRL الخاصة بهم مع المعايير الأساسية المعمول بها.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن