مسرد المصطلحات

مُحسِّن آدم

تعرّف على كيفية قيام مُحسِّن آدم بتشغيل تدريب الشبكة العصبية الفعال بمعدلات تعلُّم تكيُّفية وزخم وتطبيقات واقعية في مجال الذكاء الاصطناعي.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

مُحسِّن آدم هو خوارزمية تحسين شائعة وفعالة تُستخدم على نطاق واسع في التعلم العميق (DL) والتعلم الآلي (ML). يجمع آدم، الذي يرمز إلى تقدير اللحظة التكيفية، بين مزايا امتدادين آخرين لنسب التدرج العشوائي (SGD): تكمن قوتها الأساسية في قدرتها على حساب معدلات التعلّم التكيّفية لكل متغير، مما يجعلها مناسبة تمامًا للمشاكل ذات مجموعات البيانات الكبيرة، أو مساحات المتغيرات عالية الأبعاد، أو التدرجات الصاخبة، الشائعة في مجالات مثل الرؤية الحاسوبية ومعالجة اللغات الطبيعية.

كيف يعمل آدم

يقوم آدم بتحديث معلمات النموذج بشكل متكرر أثناء التدريب باستخدام معلومات من التدرجات السابقة. يحتفظ بمتوسطين متحركين لكل معلمة: تقدير للعزم الأول (متوسط التدرجات) وتقدير للعزم الثاني (التباين غير المركزي للتدرجات). تساعد هذه اللحظات على تكييف معدل التعلّم لكل معلمة على حدة. تحصل المعلمات التي تتلقى تحديثات تدرج كبيرة أو متكررة على معدلات تعلم أصغر، بينما تحصل المعلمات ذات التحديثات الصغيرة أو النادرة على معدلات تعلم أكبر. غالبًا ما تؤدي هذه الطبيعة التكيفية إلى تقارب أسرع مقارنةً بخوارزمية SGD القياسية. تدمج الخوارزمية أيضًا الزخم باستخدام المتوسط المتحرك للتدرج، مما يساعد على تسريع التقدم على طول الاتجاهات ذات الصلة ويخفف من التذبذبات. يمكن الاطلاع على مزيد من التفاصيل في ورقة آدم الأصلية.

مقارنة مع خوارزميات التحسين الأخرى

في حين أن آدم هو خيار افتراضي قوي، فإن فهم علاقته بالمُحسِّنات الأخرى مفيد:

  • نزول التدرج العشوائي (SGD): المُحسِّن الأساسي. على عكس آدم، يستخدم SGD القياسي معدل تعلم واحد وثابت لجميع المعلمات، على الرغم من وجود متغيرات مثل SGD مع الزخم. غالبًا ما يتقارب آدم بشكل أسرع في الممارسة العملية، خاصةً في وقت مبكر من التدريب، لكن بعض الأبحاث تشير إلى أن SGD يمكن أن يحقق أحيانًا تعميمًا أفضل في مهام معينة.
  • AdaGrad: يكيّف معدلات التعلّم بناءً على مجموع التدرجات السابقة المربعة، ولكن يمكن أن يصبح معدل التعلّم صغيرًا بشكل متناهي الصغر بمرور الوقت، مما قد يؤدي إلى إيقاف التعلّم.
  • RMSProp: مشابه ل AdaGrad، ولكنه يستخدم متوسط تضاؤل أسي للتدرجات التربيعية بشكل أسيّ، مما يمنع معدل التعلم من التقلص بشدة. يعتمد آدم على الأفكار الموجودة في RMSProp.

التطبيقات الواقعية

يُستخدم مُحسِّن آدم في تدريب مجموعة كبيرة من نماذج الذكاء الاصطناعي:

مثال 1: التعرف على الصور واكتشافها

في مجال الرؤية الحاسوبية، كثيرًا ما يُستخدم آدم لتدريب الشبكات العصبية التلافيفية (CNNs). على سبيل المثال، تستفيد نماذج التدريب لتصنيف الصور على مجموعات بيانات كبيرة مثل ImageNet أو تطوير أنظمة معقدة للكشف عن الأجسام من كفاءة آدم في التعامل مع ملايين المعلمات وتحقيق دقة عالية.

مثال 2: معالجة اللغة الطبيعية

آدم هو مُحسِّن قياسي لتدريب النماذج اللغوية الكبيرة (LLMs) مثل متغيرات BERT و GPT. عند تدريب النماذج لمهام مثل الترجمة الآلية، أو تلخيص النصوص، أو تحليل المشاعر، يساعد آدم في التنقل بكفاءة في مشهد الخسائر المعقدة المرتبطة بهذه النماذج.

الاستخدام في Ultralytics YOLO

ضمن نظام Ultralytics البيئي، يُعد Adam ومتغيره AdamW مُحسِّنين متاحين لتدريب نماذج Ultralytics YOLO . يمكن أن تؤدي الاستفادة من معدلات التعلّم التكيّفية الخاصة بآدم إلى تسريع التقارب أثناء تدريب نماذج اكتشاف الأجسام أو تجزئة النماذج أو تقدير الوضع. على الرغم من أن SGD غالبًا ما يكون المُحسِّن الافتراضي والموصى به لنماذج YOLO نظرًا لاحتمال تعميمه النهائي بشكل أفضل، يوفر Adam بديلاً قويًا، وهو مفيد بشكل خاص في سيناريوهات معينة أو أثناء التجربة الأولية. يمكنك تكوين المُحسِّن وإعدادات التدريب الأخرى بسهولة. تعمل أدوات مثل Ultralytics HUB على تبسيط العملية، مما يسمح للمستخدمين بتدريب النماذج باستخدام مُحسِّنات مختلفة، بما في ذلك آدم، إما محلياً أو عبر التدريب السحابي. ولتحسين الأداء، ضع في اعتبارك تقنيات مثل ضبط المعامل الفائق. أطر عمل مثل PyTorch و TensorFlow تطبيقات آدم.

قراءة الكل