اكتشف كيف تمنع الطبقات المنسحبة الإفراط في تركيب الشبكات العصبية من خلال تحسين التعميم والمتانة وأداء النموذج.
طبقة التسرب هي تقنية أساسية تُستخدم في تدريب نماذج التعلّم العميق، خاصةً الشبكات العصبونية، لمكافحة الإفراط في التكييف. يحدث الإفراط في التركيب عندما يتعلم النموذج بيانات التدريب بشكل جيد للغاية، بما في ذلك الضوضاء والأنماط المحددة، مما يعيق قدرته على التعميم على البيانات الجديدة غير المرئية. يعالج التسرب هذا الأمر عن طريق "إسقاط" جزء من تنشيط الخلايا العصبية في طبقة ما بشكل مؤقت وعشوائي أو ضبطه على الصفر أثناء كل تكرار تدريب. وهذا يجبر الشبكة على تعلم ميزات أكثر قوة لا تعتمد على أي خلية عصبية واحدة.
أثناء عملية التدريب، لكل مثال تدريبي في كل دفعة، يكون لكل خلية عصبية في طبقة التسرب احتمال معين ("معدل التسرب"، عادةً ما يتراوح بين 0.1 و 0.5) لإلغاء تنشيطها. وهذا يعني أنه يتم تعيين خرجها إلى الصفر لذلك التمرير الأمامي والخلفي المحدد. أما الخلايا العصبية النشطة المتبقية فيتم رفع مخرجاتها بمعامل يعادل 1/(معدل التسرب) للحفاظ على مجموع التنشيطات المتوقعة بشكل عام. تُنشئ هذه العملية بفعالية هياكل شبكة مختلفة قليلاً لكل خطوة تدريب، مما يمنع الخلايا العصبية من التكيف المشترك أكثر من اللازم ويشجعها على تعلم المزيد من الميزات المفيدة بشكل مستقل. والأهم من ذلك، أثناء مرحلة تقييم النموذج أو مرحلة الاستدلال، يتم إيقاف تشغيل طبقة التسرب، ويتم استخدام جميع الخلايا العصبية بأوزانها المكتسبة، مما يضمن استخدام السعة الكاملة للشبكة في التنبؤات.
الفائدة الأساسية لاستخدام طبقات التسرب هي تحسين تعميم النموذج. فمن خلال منع عمليات التكيف المشتركة المعقدة بين الخلايا العصبية، يجعل التسرب النموذج أقل حساسية للضوضاء والأنماط المحددة في بيانات التدريب، مما يؤدي إلى أداء أفضل على بيانات التحقق أو بيانات الاختبار غير المرئية. وهو يعمل كشكل من أشكال التنظيم، يشبه في هدفه تقنيات مثل اضمحلال الوزن L1/L2 ولكنه يعمل من خلال آلية عشوائية. وهي فعالة بشكل خاص في الشبكات الكبيرة ذات المعلمات الكثيرة، حيث يمثل الإفراط في التركيب تحديًا شائعًا. تم تفصيل المفهوم الأصلي في الورقة البحثية "التسرب: طريقة بسيطة لمنع الشبكات العصبية من الإفراط في التركيب".
تُستخدم طبقات التسرب على نطاق واسع في مختلف مجالات الذكاء الاصطناعي والتعلم الآلي:
التسرب هو أحد الأساليب العديدة المستخدمة لمنع الإفراط في التركيب. وتشمل التقنيات الأخرى ما يلي:
ويختلف التسرب عن طريق التلاعب المباشر بتنشيط الخلايا العصبية عشوائيًا أثناء التدريب، مما يؤدي إلى تدريب مجموعة من الشبكات الضعيفة بشكل فعال.
طبقات التسرب هي مكونات قياسية في أطر التعلم العميق الرئيسية. وهي متاحة بسهولة في مكتبات مثل PyTorch و TensorFlowمما يجعلها سهلة الدمج في بنى الشبكات العصبية.