مسرد المصطلحات

تدرج التلاشي

اكتشف مشكلة التدرج المتلاشي في التعلم العميق، وتأثيرها على الشبكات العصبية، والحلول الفعالة مثل ReLU وResNets وغيرها.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

يعد التدرج المتلاشي تحديًا شائعًا تتم مواجهته أثناء تدريب الشبكات العصبية العميقة (NNs)، خاصة تلك التي تحتوي على طبقات عديدة مثل الشبكات العصبية المتكررة (RNNs) والشبكات العميقة ذات التغذية الأمامية. ويحدث ذلك أثناء عملية الترحيل العكسي، حيث تصبح تدرجات دالة الخسارة فيما يتعلق بأوزان الشبكة صغيرة للغاية حيث يتم نشرها للخلف من طبقة الخرج إلى الطبقات السابقة. عندما تصبح هذه التدرجات صغيرة للغاية، تصبح التحديثات على أوزان النموذج في الطبقات الأولية ضئيلة للغاية، مما يوقف هذه الطبقات عن التعلم. وهذا يعيق قدرة الشبكة على تعلم الأنماط المعقدة والتقاط التبعيات بعيدة المدى في البيانات، وهو أمر بالغ الأهمية للعديد من مهام التعلم العميق (DL).

لماذا تعتبر التدرجات المتلاشية إشكالية

المشكلة الأساسية في التدرجات المتلاشية هي أنها تعيق عملية التعلم. تتعلم نماذج التعلّم الآلي (ML) من خلال تعديل معلماتها الداخلية بناءً على إشارة الخطأ (التدرج) المحسوبة باستخدام خوارزميات التحسين مثل " نزول التدرج " أو متغيراته مثل آدم. إذا كان التدرج قريبًا من الصفر، فإن تحديثات المعلمات تكون في حدها الأدنى أو غير موجودة. في الشبكات العميقة، تتفاقم هذه المشكلة لأن إشارة التدرج تتضاعف مرارًا وتكرارًا بأعداد صغيرة أثناء انتقالها عبر الطبقات. وبالتالي، فإن الطبقات الأقرب إلى المدخلات تتعلم بشكل أبطأ بكثير من الطبقات الأقرب إلى المخرجات، أو قد لا تتعلم على الإطلاق. وهذا يمنع الشبكة من التقارب إلى الحل الأمثل ويحد من أدائها ودقتها بشكل عام. إن فهم هذه الظاهرة أمر بالغ الأهمية لتدريب النموذج بشكل فعال.

الأسباب والمقارنة مع التدرجات المتفجرة

غالبًا ما تنشأ التدرجات المتلاشية بسبب:

  1. اختيار دوال التنشيط: تحتوي بعض دوال التنشيط، مثل الدالة السهمية أو الظل الزائدي (tanh)، على مشتقات أقل من 1، خاصةً في مناطق التشبع. أثناء الترحيل العكسي، يؤدي ضرب هذه المشتقات الصغيرة عبر العديد من الطبقات إلى تقلص التدرج أسيًا.
  2. البنى العميقة: يزيد العمق الهائل للشبكات الحديثة من عدد مرات مضاعفة التدرجات، مما يجعل التدرجات المتلاشية أكثر احتمالاً.
  3. تهيئة الأوزان: يمكن أن يساهم سوء تهيئة الأوزان أيضًا في حدوث المشكلة.

من المهم التمييز بين التدرجات المتلاشية ومشكلة التدرجات المتلاشية ذات الصلة التدرجات المتلاشية. تحدث التدرجات المتفجرة عندما تصبح التدرجات كبيرة بشكل مفرط، مما يؤدي إلى تدريب غير مستقر وتحديثات كبيرة ومتذبذبة للأوزان. ويحدث هذا عادةً عندما يتم ضرب التدرجات بشكل متكرر بأعداد أكبر من 1. بينما تمنع التدرجات المتلاشية التعلم، فإن التدرجات المتفجرة تتسبب في تباعد التعلم. وغالبًا ما تُستخدم تقنيات مثل قص التدرج لمكافحة التدرجات المتفجرة.

تقنيات التخفيف من المخاطر

تم تطوير العديد من الاستراتيجيات لمعالجة مشكلة تلاشي التدرج:

  • ReLU ومتغيراتها: يساعد استخدام دوال التنشيط مثل ReLU (الوحدة الخطية المعدلة) ومتغيراتها(ReLU، GELU، SiLU) لأن مشتقاتها تساوي 1 للمدخلات الموجبة، مما يمنع التدرج من الانكماش في تلك المناطق.
  • البنى المتخصصة: تقدم بنيات مثل الشبكات المتبقية (Residual Net) "وصلات التخطي" التي تسمح للتدرجات بتجاوز الطبقات، مما يوفر مسارًا أقصر أثناء الترحيل العكسي. بالنسبة للبيانات المتسلسلة، تستخدم الذاكرة قصيرة الأجل الطويلة (LSTM) والوحدات المتكررة ذات البوابات (GRU) آليات بوابات للتحكم في تدفق المعلومات والحفاظ على التدرجات على مدى تسلسلات طويلة.
  • تهيئة الوزن: تساعد مخططات التهيئة المناسبة، مثل تهيئة He أو تهيئة Xavier/Glorot، في الحفاظ على تباين التدرج عبر الطبقات.
  • تطبيع الدُفعات: يساعد تطبيع الد ُفعات على استقرار التعلّم من خلال تطبيع مدخلات الطبقات، مما يمكن أن يخفف بشكل غير مباشر من تلاشي (وانفجار) التدرجات.
  • قص التدرج: على الرغم من أنه مخصص في المقام الأول للتدرجات المتفجرة، إلا أن تعيين حد أقصى للتدرجات يمكن أن يساعد أحيانًا في منعها من أن تصبح صغيرة جدًا بعد التذبذبات الكبيرة.

تأثير العالم الحقيقي وأمثلة على ذلك

كانت معالجة التدرجات المتلاشية محورية للتقدم في مجال الذكاء الاصطناعي:

  1. معالجة اللغات الطبيعية (NLP): عانت الشبكات الشبكية الشبكية العصبية العصبية المبكرة مع الجمل الطويلة في مهام مثل الترجمة الآلية أو تحليل المشاعر بسبب تلاشي التدرجات. سمح تطوير LSTMs و GRUs للنماذج بتعلم التبعيات بعيدة المدى، مما أدى إلى تحسين الأداء بشكل كبير. تتحايل البنى الحديثة مثل المحولات على هذا الأمر باستخدام آليات مثل الانتباه الذاتي.
  2. الرؤية الحاسوبية: كان تدريب الشبكات العصبية التلافيفية العميقة جداً (CNNs) يمثل تحدياً إلى أن تم تقديم بنيات مثل ResNet. مكّنت الشبكات الشبكية التلافيفية الشبكات ذات المئات أو حتى الآلاف من الطبقات، مما أدى إلى تحقيق اختراقات في تصنيف الصور واكتشاف الأجسام (كما هو مستخدم في نماذج مثل Ultralytics YOLOوتجزئة الصور. يمكنك استكشاف مجموعات بيانات الرؤية الحاسوبية المختلفة المستخدمة لتدريب هذه النماذج.

يظل فهم التدرجات المتلاشية والتخفيف من آثارها جانباً رئيسياً في تصميم نماذج التعلم العميق الفعالة وتدريبها، مما يتيح تطبيقات الذكاء الاصطناعي القوية التي نراها اليوم، والتي غالباً ما تتم إدارتها ونشرها باستخدام منصات مثل Ultralytics HUB.

قراءة الكل