مسرد المصطلحات

نزول التدرج العشوائي (SGD)

اكتشف كيف يعمل التدرج العشوائي على تحسين نماذج التعلُّم الآلي من خلال تحسين نماذج التعلُّم الآلي، مما يتيح التدريب الفعّال لمجموعات البيانات الكبيرة ومهام التعلُّم العميق.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

تُعد خوارزمية "نزول التدرج العشوائي"، والمعروفة باسم SGD، خوارزمية تحسين شائعة وفعالة تُستخدم على نطاق واسع في التعلم الآلي (ML) وخاصةً التعلم العميق (DL). وهي تعمل كتنوع من خوارزمية نزول التدرج القياسية ولكنها مصممة خصيصًا لتحقيق السرعة والكفاءة عند التعامل مع مجموعات البيانات الكبيرة جدًا. بدلاً من حساب التدرج (الاتجاه الأكثر انحدارًا لدالة الخسارة) باستخدام مجموعة البيانات بأكملها في كل خطوة، تقوم خوارزمية SGD بتقريب التدرج بناءً على عينة بيانات واحدة مختارة عشوائيًا أو مجموعة فرعية صغيرة تسمى دفعة صغيرة. يقلل هذا النهج بشكل كبير من التكلفة الحسابية ومتطلبات الذاكرة، مما يجعل من الممكن تدريب النماذج المعقدة على كميات هائلة من البيانات الموجودة في مجالات مثل الرؤية الحاسوبية.

الملاءمة في التعلم الآلي

يُعد SGD حجر الزاوية لتدريب نماذج التعلّم الآلي واسعة النطاق، خاصةً الشبكات العصبية المعقدة (NN) التي تشغل العديد من تطبيقات الذكاء الاصطناعي الحديثة. إن كفاءته تجعله لا غنى عنه عند العمل مع مجموعات بيانات كبيرة جدًا بحيث لا يمكن استيعابها في الذاكرة أو تستغرق وقتًا طويلاً جدًا لمعالجتها باستخدام النسب المتدرجة التقليدية. نماذج مثل Ultralytics YOLO غالبًا ما تستخدم SGD أو متغيراته أثناء عملية التدريب لتعلم أنماط لمهام مثل اكتشاف الأجسام وتصنيف الصور وتجزئة الصور. أطر التعلم العميق الرئيسية مثل PyTorch و TensorFlow تطبيقات قوية ل SGD، مما يسلط الضوء على دورها الأساسي في منظومة الذكاء الاصطناعي.

المفاهيم الرئيسية

ينطوي فهم SGD على بعض الأفكار الأساسية:

  • دالة الخسارة: مقياس لمدى تطابق تنبؤات النموذج مع القيم المستهدفة الفعلية. يهدف SGD إلى تقليل هذه الدالة إلى الحد الأدنى.
  • معدل التعلم: معيار مفرط يتحكم في حجم الخطوة التي يتم اتخاذها أثناء كل تحديث للمعلمة. يعد العثور على معدل تعلم جيد أمرًا بالغ الأهمية للتدريب الفعال. غالبًا ما تُستخدم جداول معدل التعلم لضبطه أثناء التدريب.
  • حجم الدفعة: عدد عينات التدريب المستخدمة في تكرار واحد لتقدير التدرج. في SGD النقي، يكون حجم الدُفعة 1. عند استخدام مجموعات فرعية صغيرة، غالبًا ما يُطلق عليها اسم "نزول التدرج الدفعي المصغر".
  • بيانات التدريب: مجموعة البيانات المستخدمة لتدريب النموذج. تعالج SGD هذه البيانات عينة عينة أو في مجموعات صغيرة. تعد البيانات عالية الجودة ضرورية، وغالبًا ما تتطلب جمع البيانات والشرح التوضيحي بعناية.
  • التدرج: متجه يشير إلى اتجاه الزيادة الأكثر انحدارًا في دالة الخسارة. يحرك SGD المعلمات في الاتجاه المعاكس للتدرج المحسوب من عينة أو دفعة صغيرة.
  • الفترة الزمنية: تمريرة واحدة كاملة عبر مجموعة بيانات التدريب بأكملها. يتضمن التدريب عادةً عدة دورات تدريبية.

الاختلافات عن المفاهيم ذات الصلة

إن SGD هي إحدى خوارزميات التحسين المتعددة، ومن المهم تمييزها عن غيرها:

  • نزول التدرج الدفعي (BGD): يحسب التدرج باستخدام مجموعة بيانات التدريب بأكملها في كل خطوة. يوفر هذا تقديرًا دقيقًا للتدرج ولكنه مكلف حسابيًا وكثيف الذاكرة لمجموعات البيانات الكبيرة. وهو يؤدي إلى مسار تقارب أكثر سلاسةً مقارنةً بتحديثات SGD الصاخبة.
  • انحدار متدرج دفعي صغير: حل وسط بين BGD و SGD. فهو يحسب التدرج باستخدام مجموعة فرعية صغيرة عشوائية (دفعة صغيرة) من البيانات. وهذا يوازن بين دقة التدرج التدرجي العشوائي وكفاءة التدرج العشوائي الصغير، وهو النهج الأكثر شيوعًا في الممارسة العملية. يمكن أن يعتمد الأداء على حجم الدفعة.
  • مُحسِّن آدم: خوارزمية تحسين معدل التعلّم التكيّفي التي تحسب معدلات التعلّم التكيّفية الفردية لمختلف المعلمات. وغالبًا ما تتقارب بشكل أسرع من SGD القياسي ولكنها قد تعمم أحيانًا بشكل أقل فعالية، كما نوقش في بحث مثل "القيمة الهامشية لطرق التدرج التكيفي في التعلم الآلي". توجد العديد من المتغيرات الخاصة بنسب التدرج غير هذه.

التطبيقات الواقعية

تُمكِّن كفاءة SGD من استخدامه في العديد من تطبيقات الذكاء الاصطناعي واسعة النطاق:

مثال 1: تدريب نماذج اللغات الكبيرة (LLMs)

غالبًا ما تتضمن نماذج التدريب مثل تلك المستخدمة في معالجة اللغات الطبيعية (NLP) مجموعات بيانات نصية ضخمة (مليارات الكلمات). تُعد SGD ومتغيراتها (مثل آدم) ضرورية لتكرار هذه البيانات بكفاءة، مما يسمح لنماذج مثل GPT-4 أو تلك الموجودة في Hugging Face لتعلم القواعد النحوية والسياق والدلالات. تساعد الطبيعة العشوائية على الهروب من الحدود الدنيا المحلية الضعيفة في مشهد الخسارة المعقد.

مثال 2: التدريب على اكتشاف الأجسام في الوقت الحقيقي

بالنسبة لنماذج مثل Ultralytics YOLO المصممة للاستدلال في الوقت الفعلي، يجب أن يكون التدريب فعالاً. يسمح SGD للمطوّرين بتدريب هذه النماذج على مجموعات بيانات الصور الكبيرة مثل COCO أو مجموعات البيانات المخصصة التي تتم إدارتها عبر منصات مثل Ultralytics HUB. وتتيح التحديثات السريعة تقاربًا أسرع مقارنةً بـ Batch GD، وهو أمر بالغ الأهمية للتكرار السريع أثناء تطوير النموذج وضبط المعلمة الفائقة. تدعم هذه الكفاءة التطبيقات في مجالات مثل المركبات ذاتية القيادة والروبوتات.

قراءة الكل