اكتشف مشكلة التدرج المتلاشي في التعلم العميق، وتأثيرها على الشبكات العصبية، والحلول الفعالة مثل ReLU وResNets وغيرها.
يعد التدرج المتلاشي تحديًا شائعًا تتم مواجهته أثناء تدريب الشبكات العصبية العميقة (NNs)، خاصة تلك التي تحتوي على طبقات عديدة مثل الشبكات العصبية المتكررة (RNNs) والشبكات العميقة ذات التغذية الأمامية. ويحدث ذلك أثناء عملية الترحيل العكسي، حيث تصبح تدرجات دالة الخسارة فيما يتعلق بأوزان الشبكة صغيرة للغاية حيث يتم نشرها للخلف من طبقة الخرج إلى الطبقات السابقة. عندما تصبح هذه التدرجات صغيرة للغاية، تصبح التحديثات على أوزان النموذج في الطبقات الأولية ضئيلة للغاية، مما يوقف هذه الطبقات عن التعلم. وهذا يعيق قدرة الشبكة على تعلم الأنماط المعقدة والتقاط التبعيات بعيدة المدى في البيانات، وهو أمر بالغ الأهمية للعديد من مهام التعلم العميق (DL).
المشكلة الأساسية في التدرجات المتلاشية هي أنها تعيق عملية التعلم. تتعلم نماذج التعلّم الآلي (ML) من خلال تعديل معلماتها الداخلية بناءً على إشارة الخطأ (التدرج) المحسوبة باستخدام خوارزميات التحسين مثل " نزول التدرج " أو متغيراته مثل آدم. إذا كان التدرج قريبًا من الصفر، فإن تحديثات المعلمات تكون في حدها الأدنى أو غير موجودة. في الشبكات العميقة، تتفاقم هذه المشكلة لأن إشارة التدرج تتضاعف مرارًا وتكرارًا بأعداد صغيرة أثناء انتقالها عبر الطبقات. وبالتالي، فإن الطبقات الأقرب إلى المدخلات تتعلم بشكل أبطأ بكثير من الطبقات الأقرب إلى المخرجات، أو قد لا تتعلم على الإطلاق. وهذا يمنع الشبكة من التقارب إلى الحل الأمثل ويحد من أدائها ودقتها بشكل عام. إن فهم هذه الظاهرة أمر بالغ الأهمية لتدريب النموذج بشكل فعال.
غالبًا ما تنشأ التدرجات المتلاشية بسبب:
من المهم التمييز بين التدرجات المتلاشية ومشكلة التدرجات المتلاشية ذات الصلة التدرجات المتلاشية. تحدث التدرجات المتفجرة عندما تصبح التدرجات كبيرة بشكل مفرط، مما يؤدي إلى تدريب غير مستقر وتحديثات كبيرة ومتذبذبة للأوزان. ويحدث هذا عادةً عندما يتم ضرب التدرجات بشكل متكرر بأعداد أكبر من 1. بينما تمنع التدرجات المتلاشية التعلم، فإن التدرجات المتفجرة تتسبب في تباعد التعلم. وغالبًا ما تُستخدم تقنيات مثل قص التدرج لمكافحة التدرجات المتفجرة.
تم تطوير العديد من الاستراتيجيات لمعالجة مشكلة تلاشي التدرج:
كانت معالجة التدرجات المتلاشية محورية للتقدم في مجال الذكاء الاصطناعي:
يظل فهم التدرجات المتلاشية والتخفيف من آثارها جانباً رئيسياً في تصميم نماذج التعلم العميق الفعالة وتدريبها، مما يتيح تطبيقات الذكاء الاصطناعي القوية التي نراها اليوم، والتي غالباً ما تتم إدارتها ونشرها باستخدام منصات مثل Ultralytics HUB.