شجرة القرار هي نموذج متعدد الاستخدامات وقابل للتفسير يُستخدم في التعلم الآلي (ML) لكل من مهام التصنيف والانحدار. وهي تعمل مثل مخطط انسيابي، حيث تمثل كل عقدة داخلية اختبارًا على سمة (ميزة)، ويمثل كل فرع نتيجة الاختبار، وتمثل كل عقدة ورقية تسمية فئة (في التصنيف) أو قيمة مستمرة (في الانحدار). هذا الهيكل يجعل من السهل تصور وفهم كيفية وصول النموذج إلى التنبؤ، مما يحاكي عمليات اتخاذ القرار البشري.
كيفية عمل أشجار القرار
تتعلم أشجار القرار من البيانات من خلال إنشاء نموذج يتنبأ بقيمة المتغير المستهدف بناءً على العديد من ميزات المدخلات. إنه شكل من أشكال التعلّم الخاضع للإشراف، مما يعني أنه يتطلب بيانات تدريب موسومة. يتم بناء الشجرة عن طريق التقسيم التكراري للبيانات استنادًا إلى السمات التي تفصل المتغير المستهدف بشكل أفضل. وتستخدم الخوارزميات الشائعة مثل CART (أشجار التصنيف والانحدار) وID3 معايير مثل شوائب جيني أو كسب المعلومات لتحديد التقسيم الأمثل في كل عقدة. وتستمر العملية حتى يتم استيفاء معيار التوقف، مثل الوصول إلى الحد الأقصى للعمق أو وجود عقد تحتوي على عينات من فئة واحدة فقط.
الأنواع والاختلافات
النوعان الرئيسيان هما أشجار التصنيف (التنبؤ بتسميات الفئات المنفصلة) وأشجار الانحدار (التنبؤ بالقيم العددية المستمرة). في حين أن أشجار القرار الفردية مفيدة، إلا أنها قد تكون أحيانًا عرضة للأخطاء أو عدم الاستقرار. ولمعالجة هذه المشكلة، تجمع الأساليب التجميعية مثل الغابة العشوائية بين أشجار القرار المتعددة لتحسين الأداء التنبؤي والمتانة ضد الإفراط في التهيئة.
المزايا والعيوب
تقدم أشجار القرار العديد من المزايا:
- قابلية التفسير: هيكل المخطط الانسيابي سهل التصور والشرح.
- الحد الأدنى من إعداد البيانات: غالبًا ما تتطلب معالجة مسبقة أقل للبيانات مقارنةً بالتقنيات الأخرى، حيث تتعامل مع كل من البيانات العددية والفئوية بشكل طبيعي.
- أهمية الميزة: وهي تقوم ضمنيًا باختيار الميزات، مع الإشارة إلى الميزات الأكثر تأثيرًا في عملية اتخاذ القرار.
ومع ذلك، فإن لها أيضًا عيوبًا:
- الإفراط في التركيب: يمكن أن تصبح الأشجار معقدة بشكل مفرط وتتناسب مع بيانات التدريب بشكل وثيق للغاية، مما يفشل في التعميم بشكل جيد على البيانات الجديدة. تُستخدم تقنيات مثل التقليم لتبسيط الشجرة ومكافحة ذلك.
- عدم الاستقرار: يمكن أن تؤدي الاختلافات الصغيرة في البيانات إلى هياكل شجرية مختلفة بشكل كبير.
- التحيز: يمكن أن تصبح الأشجار متحيزة إذا كانت بعض الفئات مهيمنة في مجموعة البيانات.
التطبيقات الواقعية
يتم تطبيق أشجار القرار في مختلف المجالات:
- التشخيص الطبي: مساعدة الأطباء من خلال التنبؤ بالأمراض بناءً على الأعراض والتاريخ المرضي للمريض، مما يوفر مسارًا واضحًا لاتخاذ القرار. على سبيل المثال، يمكن أن تساعد في تحديد عوامل الخطر لحالات معينة بناءً على البيانات السريرية(مثال على التطبيق في مجال الرعاية الصحية). يتوافق هذا مع التطبيقات الأوسع نطاقاً للذكاء الاصطناعي في مجال الرعاية الصحية.
- التحليل المالي: يستخدم في تسجيل الائتمان لتقييم مخاطر طلب القرض بناءً على معلومات مقدم الطلب أو في التنبؤ بتحركات سوق الأسهم.
- التنبؤ باضطراب العملاء: تستخدم الشركات أشجار القرار لتحديد العملاء الذين يُحتمل أن يغادروا بناءً على أنماط استخدامهم وخصائصهم السكانية وتاريخ تفاعلهم، مما يسمح باستراتيجيات استباقية للاحتفاظ بالعملاء(انظر أمثلة على منصات مثل Kaggle).
مقارنة مع الخوارزميات الأخرى
- الغابات العشوائية: على الرغم من أن الغابات العشوائية مبنية من أشجار القرار، إلا أنها تقدم تنبؤات متوسطة عبر العديد من الأشجار، مما يوفر دقة أعلى وتعميمًا أفضل من شجرة واحدة.
- آلات دعم المتجهات (SVM): تهدف آلات SVMs إلى العثور على المستوى الفائق الأمثل الذي يفصل بين الفئات، وغالبًا ما يكون أداؤها جيدًا في المساحات عالية الأبعاد ولكنها تفتقر إلى قابلية التفسير المباشر لأشجار القرار.
- الشبكات العصبية (NN): الشبكات العصبية، وخاصة العميقة منها المستخدمة في نماذج مثل Ultralytics YOLOللرؤية الحاسوبية، يمكنها نمذجة علاقات معقدة للغاية وغير خطية ولكنها عادةً ما تكون أقل قابلية للتفسير ("صناديق سوداء") من أشجار القرار.
تظل خوارزميات أشجار القرار خوارزمية أساسية في التعلم الآلي نظرًا لبساطتها وقابليتها للتفسير وفائدتها كلبنات بناء لنماذج أكثر تعقيدًا. يتم تنفيذها على نطاق واسع في المكتبات الشائعة مثل Scikit-learn.