مسرد المصطلحات

عملية اتخاذ القرار ماركوف (MDP)

اكتشف عمليات اتخاذ القرار في ماركوف (MDPs) ودورها في الذكاء الاصطناعي والتعلم المعزز والروبوتات واتخاذ القرارات في مجال الرعاية الصحية.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

عملية اتخاذ القرار ماركوف (MDP) هي إطار رياضي لنمذجة عملية اتخاذ القرار في المواقف التي تكون فيها النتائج عشوائية جزئيًا وجزئيًا تحت سيطرة صانع القرار. وهو مفهوم حاسم في الذكاء الاصطناعي والتعلم الآلي، لا سيما في مجال التعلم المعزز، حيث يوفر نهجًا منظمًا لحل مشاكل القرارات المتسلسلة المعقدة. تُستخدم برمجيات MDPs لإضفاء الطابع الرسمي على المشاكل التي يتفاعل فيها الوكيل مع البيئة، بهدف اختيار الإجراءات التي تزيد من المكافأة التراكمية.

التعريف

يتم تعريف عملية اتخاذ القرار ماركوف (MDP) من خلال مجموعة من الحالات ومجموعة من الإجراءات واحتمالات الانتقال ودوال المكافأة. ومن الناحية الشكلية، فإن عملية اتخاذ القرار ماركوف هي عملية تحكم عشوائية متقطعة في الزمن. وهي توفر إطارًا رياضيًا لنمذجة عملية اتخاذ القرار في المواقف التي تكون فيها النتائج عشوائية جزئيًا وعشوائية جزئيًا تحت سيطرة صانع القرار. يمكنك العثور على المزيد من التفسيرات الرياضية المتعمقة في مصادر مثل صفحة عملية اتخاذ القرار ماركوف في ويكيبيديا. خاصية "ماركوف" هي المفتاح: تعتمد الحالة المستقبلية فقط على الحالة والإجراء الحالي، وليس على تاريخ الحالات أو الإجراءات السابقة. هذه الخاصية "عديمة الذاكرة" تبسط المشكلة مع الاستمرار في التقاط العديد من سيناريوهات العالم الحقيقي.

المكونات الرئيسية لخطة التنمية الألفية

  • الحالات: تمثل هذه الحالات المواقف أو التكوينات المحتملة التي يمكن أن يكون عليها الوكيل. على سبيل المثال، في سيناريو السيارة ذاتية القيادة، يمكن أن تتضمن الحالات الموقع الحالي للسيارة وسرعتها وظروف حركة المرور المحيطة بها. في سياق أتمتة العمليات الروبوتية (RPA)، قد تكون الحالة هي المرحلة الحالية لعملية سير العمل.
  • الإجراءات: هذه هي الخيارات التي يمكن للوكيل القيام بها في كل حالة. استمرارًا لمثال السيارة ذاتية القيادة، يمكن أن تكون الإجراءات هي التسارع أو التباطؤ أو الانعطاف يسارًا أو يمينًا. بالنسبة لروبوت الدردشة الآلية، قد تكون الإجراءات عبارة عن استجابات مختلفة يمكن أن يقدمها لمدخلات المستخدم.
  • احتمالات الانتقال: تحدد هذه الاحتمالات احتمالات الانتقال لكل زوج من الحالة والفعل، وتحدد هذه الاحتمالات احتمالية الانتقال إلى كل حالة تالية محتملة. بما أن الخطط متعددة الوظائف تنطوي على مرونة عشوائية، فإن اتخاذ إجراء في حالة ما لا يضمن نتيجة محددة، بل يؤدي إلى توزيع احتمالات على الحالات التالية المحتملة.
  • وظائف المكافأة: تحدد هذه الدوال المكافأة الفورية التي يحصل عليها الوكيل بعد الانتقال إلى حالة جديدة. يمكن أن تكون المكافأة موجبة (مرغوبة) أو سالبة (غير مرغوب فيها، وغالباً ما تسمى تكلفة أو عقوبة). على سبيل المثال، في اللعبة، يمكن أن يكون للفوز في اللعبة مكافأة إيجابية كبيرة، بينما يمكن أن يكون للخسارة مكافأة سلبية. في ضبط المعلمة الفائقة للنموذج، يمكن أن تكون المكافأة مرتبطة بمقياس أداء النموذج على مجموعة التحقق من الصحة.

الملاءمة والتطبيقات

تُعدّ نماذج تخطيطات البرمجة متعددة الأبعاد (MDPs) أساسية للتعلم المعزز (RL)، حيث يكون الهدف هو تدريب الوكيل على اتخاذ القرارات المثلى في بيئة ما لتعظيم المكافأة التراكمية. تعتمد خوارزميات التعلّم المعزز مثل التعلّم الكمي وخوارزمية التعلّم المعزز على إطار عمل التعلّم المتعدد الأبعاد. وتفيد هذه الخوارزميات بشكل خاص في السيناريوهات التي:

  • عملية صنع القرار متسلسلة: تؤثر الإجراءات المتخذة الآن على الحالات والمكافآت المستقبلية.
  • عدم اليقين متأصل: لا يمكن التنبؤ بنتائج الإجراءات دائماً.
  • يمكن تعريف الهدف بالمكافآت: الهدف هو تعظيم بعض المقاييس التراكمية للنجاح.

تتضمن تطبيقات العالم الحقيقي لتخطيطات البرمجة متعددة الوظائف ما يلي:

  • الروبوتات: في مجال الروبوتات، يمكن استخدام برمجيات MDPs لتخطيط حركات الروبوتات والملاحة ومهام التلاعب. على سبيل المثال، يمكن أن تساعد برمجيات التصميم المتعدد الأبعاد الروبوت على تعلم التنقل في مستودع بكفاءة، وتجنب العقبات والوصول إلى المواقع المستهدفة، وهو ما يمكن أن يكون ذا صلة بالتصنيع والخدمات اللوجستية.
  • الرعاية الصحية: يمكن للخطط متعددة الوظائف نمذجة عملية اتخاذ القرارات السريرية، مثل تحديد استراتيجيات العلاج الأمثل للمرضى. ويمكن أن تساعد في تخصيص خطط العلاج بناءً على حالات المرضى والتنبؤ بنتائج العلاج، مما يحسن الذكاء الاصطناعي في مجال الرعاية الصحية. على سبيل المثال، يمكن استخدام النماذج المتعددة الوظائف لتحسين تعديل جرعات الأدوية بمرور الوقت.

المفاهيم ذات الصلة

  • التعلم المعزز (RL): التعلّم المعزز هو مجال فرعي للتعلّم الآلي يركز على تدريب الوكلاء على اتخاذ سلسلة من القرارات. وتوفر نماذج تخطيطات البرمجيات المتعددة الوظائف الأساس النظري للعديد من خوارزميات التعلّم المعزز. وغالبًا ما تُستخدم تقنيات التعلّم المعزز لحلّ خطط التسيير المتعددة الوظائف عندما تكون احتمالات الانتقال ووظائف المكافأة غير معروفة أو معقدة.
قراءة الكل