مسرد المصطلحات

لايت جي بي إم

اكتشف LightGBM، إطار عمل تعزيز التدرج السريع والفعال لمجموعات البيانات الكبيرة، مما يوفر دقة عالية في تطبيقات التعلم الآلي.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

LightGBM، وهو اختصار لعبارة Light Gradient Boosting Machine، هو إطار عمل لتعزيز التدرج عالي الأداء ومفتوح المصدر تم تطويره بواسطة Microsoft. يُستخدم على نطاق واسع في التعلم الآلي (ML) لمهام مثل التصنيف والانحدار والترتيب. يُعرف LightGBM على وجه الخصوص بسرعته وكفاءته، خاصةً عند العمل مع مجموعات البيانات الكبيرة، وغالبًا ما يوفر دقة عالية مع استهلاك ذاكرة أقل مقارنةً بخوارزميات التعزيز الأخرى. وهي تعتمد على المفاهيم الموجودة في خوارزميات شجرة القرار وهي جزء من عائلة أساليب تعزيز التدرج.

كيفية تحقيق LightGBM للسرعة والكفاءة

يستخدم LightGBM العديد من التقنيات المبتكرة لتحسين الأداء:

  • أخذ العينات أحادي الجانب القائم على التدرج (GOSS): تركز هذه الطريقة على مثيلات البيانات ذات التدرجات الأكبر (تلك التي عادةً ما تكون غير مدربة) وتسقط عشوائيًا المثيلات ذات التدرجات الصغيرة، مما يحافظ على الدقة مع تقليل حجم البيانات للتدريب بشكل كبير.
  • تجميع الميزات الحصرية (EFB): تعمل هذه التقنية على تجميع الميزات الحصرية المتبادلة (الميزات التي نادرًا ما تأخذ قيمًا غير صفرية في وقت واحد، وهي شائعة في البيانات المتفرقة) معًا، مما يقلل من عدد الميزات دون فقدان الكثير من المعلومات.
  • نمو الشجرة على مستوى الأوراق: على عكس النمو التقليدي على مستوى الشجرة الذي تستخدمه العديد من الخوارزميات الأخرى مثل XGBoost، فإن LightGBM ينمو الأشجار على مستوى الأوراق (عموديًا). تختار الشجرة التي تعتقد أنها ستؤدي إلى أكبر انخفاض في الخسارة، مما يؤدي غالبًا إلى تقارب أسرع ودقة أفضل، على الرغم من أنه قد يؤدي أحيانًا إلى الإفراط في التركيب على مجموعات بيانات أصغر إذا لم يتم ضبطها بشكل صحيح من خلال ضبط المعلمة الفائقة.

هذه التحسينات تجعل LightGBM سريعًا بشكل استثنائي وفعالًا من حيث الذاكرة، مما يتيح التدريب على مجموعات بيانات ضخمة قد تكون باهظة بالنسبة للأطر الأخرى.

الميزات الرئيسية لـ LightGBM

يوفر LightGBM العديد من المزايا لممارسي تعلّم الآلة المتعددة:

  • سرعة التدريب السريع: تدريب أسرع بشكل ملحوظ مقارنةً بالعديد من خوارزميات التعزيز الأخرى بسبب نظام GOSS و EFB.
  • استخدام أقل للذاكرة: تعمل المعالجة المحسّنة للبيانات وتجميع الميزات على تقليل بصمة الذاكرة.
  • دقة عالية: غالبًا ما تحقق أحدث النتائج في مهام البيانات المجدولة.
  • دعمGPU : يمكن الاستفادة من GPU لتسريع التدريب بشكل أسرع.
  • التدريب المتوازي والموزع: يدعم التدريب الموزع للتعامل مع مجموعات البيانات الكبيرة للغاية عبر أجهزة متعددة. يمكنك استكشاف وثائق LightGBM الرسمية لمزيد من التفاصيل.
  • يعالج الميزات الفئوية: يمكن التعامل مع الميزات الفئوية مباشرة، مما يبسّط المعالجة المسبقة للبيانات.

مقارنة مع أطر التعزيز الأخرى

على الرغم من أن LightGBM و XGBoost و CatBoost كلها مكتبات تعزيز تدرجات قوية، إلا أن هناك اختلافات رئيسية بينها:

  • نمو الشجرة: يستخدم LightGBM نمو الشجرة على مستوى الأوراق، بينما يستخدم XGBoost عادةً نمو الشجرة على مستوى المستويات. يستخدم CatBoost أشجار القرار الغافلة (المتماثلة).
  • الميزات الفئوية: يحتوي كل من LightGBM و CatBoost على معالجة مدمجة للميزات الفئوية، مما يبسّط سير العمل في كثير من الأحيان مقارنةً ب XGBoost الذي يتطلب عادةً ترميزًا واحدًا أو معالجة مسبقة مماثلة.
  • السرعة والذاكرة: غالبًا ما يكون LightGBM أسرع ويستخدم ذاكرة أقل من XGBoost، خاصةً على مجموعات البيانات الكبيرة، وذلك بسبب نظام GOSS و EFB. كما أن CatBoost منافس أيضًا، ويتفوق بشكل خاص في أداء معالجة الميزات الفئوية.

يعتمد الاختيار بينهما غالبًا على خصائص مجموعة البيانات المحددة ومتطلبات المشروع.

التطبيقات الواقعية

إن نقاط قوة LightGBM تجعله مناسبًا لمختلف التطبيقات التي تتعامل مع البيانات المهيكلة أو المجدولة:

  1. كشف الاحتيال: في المجال المالي، يمكن لـ LightGBM معالجة كميات هائلة من بيانات المعاملات بسرعة لتحديد الأنشطة الاحتيالية المحتملة في الوقت الفعلي تقريبًا، مستفيدةً من سرعتها ودقتها. وهذا يتماشى مع الاتجاهات الأوسع نطاقاً للذكاء الاصطناعي في مجال التمويل.
  2. التنبؤ بنسبة النقر إلى الظهور (CTR): تستخدم منصات الإعلانات عبر الإنترنت LightGBM للتنبؤ باحتمالية نقر المستخدمين على الإعلانات، وتحسين وضع الإعلانات وتوليد الإيرادات بناءً على بيانات سلوك المستخدم على نطاق واسع. يمكنك العثور على أمثلة لاستخدامها في مسابقات Kaggle.
  3. الصيانة التنبؤية: تحليل بيانات المستشعرات من الآلات الصناعية للتنبؤ بالأعطال المحتملة، مما يتيح جدولة الصيانة الاستباقية وتقليل وقت التعطل. وهذا أمر بالغ الأهمية في مجالات مثل الذكاء الاصطناعي في التصنيع.
  4. دعم التشخيص الطبي: المساعدة في تحليل بيانات المريض (المعلومات السريرية المنظمة) للتنبؤ بمخاطر المرض أو النتائج، والمساهمة في الذكاء الاصطناعي في مجال الرعاية الصحية.

بينما تتفوق LightGBM في التعامل مع البيانات المجدولة، فإنها تتميز عن نماذج مثل Ultralytics YOLOالمصممة لمهام الرؤية الحاسوبية مثل اكتشاف الأجسام وتجزئة الصور على بيانات الصور غير المنظمة. تساعد أدوات مثل Ultralytics HUB في إدارة دورة حياة نماذج الرؤية الحاسوبية هذه. تظل LightGBM أداة حيوية لمشاكل تعلم الآلة الكلاسيكية التي تتضمن مجموعات بيانات منظمة.

قراءة الكل