اكتشف كيف تمنع الطبقات المنسحبة الإفراط في تركيب الشبكات العصبية من خلال تحسين التعميم والمتانة وأداء النموذج.
تُعد طبقة التسرب تقنية أساسية تُستخدم في تدريب الشبكات العصبية (NN) لمكافحة مشكلة الإفراط في التركيب. وقد أصبح التسرب الذي قدمه هينتون وآخرون في ورقتهم البحثية المؤثرة لعام 2014، طريقة تنظيم معتمدة على نطاق واسع في التعلم العميق (DL)، وهي فعالة بشكل خاص في الشبكات الكبيرة ذات المعلمات الكثيرة. ويتمثل هدفها الأساسي في تحسين قدرة النموذج على التعميم، مما يضمن أداءه بشكل جيد على البيانات غير المرئية، وليس فقط على بيانات التدريب.
أثناء عملية تدريب النموذج، تقوم الطبقة المنسدلة "بإسقاط" أو إلغاء تنشيط جزء من الخلايا العصبية (الوحدات) في تلك الطبقة بشكل عشوائي لكل عينة تدريب. وهذا يعني أن مخرجات هذه الخلايا العصبية المختارة يتم تعيينها إلى الصفر، ولا تساهم في التمرير الأمامي أو تشارك في خطوة التكاثر الخلفي لتلك العينة المحددة. يتم تحديد جزء من الخلايا العصبية التي سيتم إسقاطها من خلال معدل التسرب، وهو معيار مفرط يتراوح عادةً بين 0.2 و 0.5.
بشكل حاسم، يكون التسرب نشطًا فقط أثناء التدريب. أثناء الاستدلال أو التنبؤ على بيانات الاختبار، تكون جميع الخلايا العصبية نشطة. وللتعويض عن حقيقة أن الخلايا العصبية تكون نشطة أثناء الاستدلال أكثر من نشاطها أثناء التدريب، عادةً ما يتم تحجيم مخرجات الطبقة بمعدل التسرب (وهي تقنية تسمى التسرب المقلوب، والتي يتم تنفيذها عادةً في أطر مثل PyTorch و TensorFlow).
تتمثل الفائدة الأساسية لاستخدام طبقات التسرب في تحسين تعميم النموذج وتقليل الإفراط في التخصيص. ويحقق ذلك من خلال عدة آليات:
يُستخدم التسرب على نطاق واسع في مختلف مجالات الذكاء الاصطناعي (AI) والتعلم الآلي (ML):
التسرب هو أحد الأساليب العديدة المستخدمة للتنظيم في التعلم العميق. وتشمل التقنيات الأخرى:
باختصار، تُعد طبقة التسرب تقنية تنظيم بسيطة لكنها قوية وضرورية لتدريب نماذج التعلم العميق القوية في مختلف التطبيقات، بدءًا من الرؤية الحاسوبية إلى البرمجة اللغوية العصبية.