اكتشف كيف يعمل التدرج العشوائي على تحسين نماذج التعلُّم الآلي من خلال تحسين نماذج التعلُّم الآلي، مما يتيح التدريب الفعّال لمجموعات البيانات الكبيرة ومهام التعلُّم العميق.
تُعد خوارزمية "نزول التدرج العشوائي"، والمعروفة باسم SGD، خوارزمية تحسين شائعة وفعالة تُستخدم على نطاق واسع في التعلم الآلي (ML) وخاصةً التعلم العميق (DL). وهي تعمل كتنوع من خوارزمية نزول التدرج القياسية ولكنها مصممة خصيصًا لتحقيق السرعة والكفاءة عند التعامل مع مجموعات البيانات الكبيرة جدًا. بدلاً من حساب التدرج (الاتجاه الأكثر انحدارًا لدالة الخسارة) باستخدام مجموعة البيانات بأكملها في كل خطوة، تقوم خوارزمية SGD بتقريب التدرج بناءً على عينة بيانات واحدة مختارة عشوائيًا أو مجموعة فرعية صغيرة تسمى دفعة صغيرة. يقلل هذا النهج بشكل كبير من التكلفة الحسابية ومتطلبات الذاكرة، مما يجعل من الممكن تدريب نماذج معقدة على كميات هائلة من البيانات.
يُعد SGD حجر الزاوية لتدريب نماذج التعلّم الآلي واسعة النطاق، خاصةً الشبكات العصبية المعقدة (NN) التي تشغل العديد من تطبيقات الذكاء الاصطناعي الحديثة. إن كفاءته تجعله لا غنى عنه عند العمل مع مجموعات بيانات كبيرة جدًا بحيث لا يمكن استيعابها في الذاكرة أو تستغرق وقتًا طويلاً جدًا لمعالجتها باستخدام النسب المتدرجة التقليدية. نماذج مثل Ultralytics YOLO غالبًا ما تستخدم SGD أو متغيراته أثناء عملية التدريب لتعلم أنماط لمهام مثل اكتشاف الأجسام وتصنيف الصور وتجزئة الصور. أطر التعلم العميق الرئيسية مثل PyTorch و TensorFlow تطبيقات قوية ل SGD، مما يسلط الضوء على دورها الأساسي في منظومة الذكاء الاصطناعي.
ينطوي فهم SGD على بعض الأفكار الأساسية:
إن SGD هي إحدى خوارزميات التحسين المتعددة، ومن المهم تمييزها عن غيرها:
تُمكِّن كفاءة SGD من استخدامه في العديد من تطبيقات الذكاء الاصطناعي واسعة النطاق:
غالبًا ما تتضمن نماذج التدريب مثل تلك المستخدمة في معالجة اللغات الطبيعية (NLP) مجموعات بيانات نصية ضخمة (مليارات الكلمات). ويُعدّ تصميم قواعد البيانات النصية ومتغيراته ضروريًا لتكرار هذه البيانات بكفاءة، مما يسمح للنماذج بتعلم القواعد والسياق والدلالات. منصات مثل Hugging Face بشكل كبير على هذه المُحسِّنات لتدريب نماذج المحولات.
بالنسبة لنماذج مثل Ultralytics YOLO المصممة للاستدلال في الوقت الفعلي، يجب أن يكون التدريب فعالاً. يسمح SGD للمطوّرين بتدريب هذه النماذج على مجموعات بيانات الصور الكبيرة مثل COCO أو مجموعات البيانات المخصصة التي تتم إدارتها عبر منصات مثل Ultralytics HUB. وتتيح التحديثات السريعة تقاربًا أسرع مقارنةً بـ Batch GD، وهو أمر بالغ الأهمية للتكرار السريع أثناء تطوير النموذج وضبط المعلمات الفائقة.