مسرد المصطلحات

طبقة التسرب

اكتشف كيف تمنع الطبقات المنسحبة الإفراط في تركيب الشبكات العصبية من خلال تحسين التعميم والمتانة وأداء النموذج.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

طبقة التسرب هي تقنية أساسية تُستخدم في تدريب نماذج التعلّم العميق، خاصةً الشبكات العصبونية، لمكافحة الإفراط في التكييف. يحدث الإفراط في التركيب عندما يتعلم النموذج بيانات التدريب بشكل جيد للغاية، بما في ذلك الضوضاء والأنماط المحددة، مما يعيق قدرته على التعميم على البيانات الجديدة غير المرئية. يعالج التسرب هذا الأمر عن طريق "إسقاط" جزء من تنشيط الخلايا العصبية في طبقة ما بشكل مؤقت وعشوائي أو ضبطه على الصفر أثناء كل تكرار تدريب. وهذا يجبر الشبكة على تعلم ميزات أكثر قوة لا تعتمد على أي خلية عصبية واحدة.

كيف يعمل التسرب من المدرسة

أثناء عملية التدريب، لكل مثال تدريبي في كل دفعة، يكون لكل خلية عصبية في طبقة التسرب احتمال معين ("معدل التسرب"، عادةً ما يتراوح بين 0.1 و 0.5) لإلغاء تنشيطها. وهذا يعني أنه يتم تعيين خرجها إلى الصفر لذلك التمرير الأمامي والخلفي المحدد. أما الخلايا العصبية النشطة المتبقية فيتم رفع مخرجاتها بمعامل يعادل 1/(معدل التسرب) للحفاظ على مجموع التنشيطات المتوقعة بشكل عام. تُنشئ هذه العملية بفعالية هياكل شبكة مختلفة قليلاً لكل خطوة تدريب، مما يمنع الخلايا العصبية من التكيف المشترك أكثر من اللازم ويشجعها على تعلم المزيد من الميزات المفيدة بشكل مستقل. والأهم من ذلك، أثناء مرحلة تقييم النموذج أو مرحلة الاستدلال، يتم إيقاف تشغيل طبقة التسرب، ويتم استخدام جميع الخلايا العصبية بأوزانها المكتسبة، مما يضمن استخدام السعة الكاملة للشبكة في التنبؤات.

الفوائد والأهمية

الفائدة الأساسية لاستخدام طبقات التسرب هي تحسين تعميم النموذج. فمن خلال منع عمليات التكيف المشتركة المعقدة بين الخلايا العصبية، يجعل التسرب النموذج أقل حساسية للضوضاء والأنماط المحددة في بيانات التدريب، مما يؤدي إلى أداء أفضل على بيانات التحقق أو بيانات الاختبار غير المرئية. وهو يعمل كشكل من أشكال التنظيم، يشبه في هدفه تقنيات مثل اضمحلال الوزن L1/L2 ولكنه يعمل من خلال آلية عشوائية. وهي فعالة بشكل خاص في الشبكات الكبيرة ذات المعلمات الكثيرة، حيث يمثل الإفراط في التركيب تحديًا شائعًا. تم تفصيل المفهوم الأصلي في الورقة البحثية "التسرب: طريقة بسيطة لمنع الشبكات العصبية من الإفراط في التركيب".

التطبيقات الواقعية

تُستخدم طبقات التسرب على نطاق واسع في مختلف مجالات الذكاء الاصطناعي والتعلم الآلي:

  1. الرؤية الحاسوبية: في مهام مثل اكتشاف الأجسام وتصنيف الصور، غالبًا ما يتم تطبيق التسرب على الطبقات المتصلة بالكامل للشبكات العصبية التلافيفية (CNNs). نماذج مثل Ultralytics YOLO تستفيد ضمنيًا من تقنيات التنظيم أثناء التدريب، مما يساعدها على التعميم بشكل أفضل عبر مجموعات بيانات الصور المتنوعة مثل COCO أو البيانات المخصصة التي يتم إعدادها عبر Ultralytics HUB. وهذا يضمن المتانة عند الكشف عن الأجسام في مشاهد متنوعة في العالم الحقيقي، وهو أمر بالغ الأهمية للتطبيقات في المركبات ذاتية القيادة أو أنظمة الأمان.
  2. معالجة اللغات الطبيعية (NLP): يُستخدم التسرب بشكل شائع في الشبكات العصبية المتكررة (RNNs) مثل LSTMs وفي نماذج المحولات المستخدمة في مهام مثل الترجمة الآلية أو تحليل المشاعر. وهو يساعد على منع النماذج من حفظ عبارات أو تراكيب جمل محددة من مجموعة التدريب، مما يؤدي إلى فهم وتوليد لغة طبيعية أفضل. غالبًا ما تتضمن أطر العمل مثل محولاتHugging Face للتحويلات التسرب في بنيات نماذجها.

المفاهيم والتمييزات ذات الصلة

التسرب هو أحد الأساليب العديدة المستخدمة لمنع الإفراط في التركيب. وتشمل التقنيات الأخرى ما يلي:

  • تنظيم L1 و L2: تضيف هذه الإجراءات عقوبة إلى دالة الخسارة بناءً على مقدار أوزان النموذج، مما يشجع على تقليل الأوزان.
  • تطبيع الدُفعات: تطبيع المدخلات إلى طبقة لكل دفعة مصغرة. بينما يُستخدم في المقام الأول لتثبيت التدريب وتسريعه، إلا أنه يمكن أن يكون له أيضًا تأثير تنظيمي طفيف.
  • زيادة البيانات: زيادة حجم مجموعة بيانات التدريب وتنوعها بشكل مصطنع من خلال تطبيق تحويلات مثل التدوير أو التقليب أو تغيير الألوان على بيانات الإدخال. استكشف تقنيات التعزيز في وثائقUltralytics .

ويختلف التسرب عن طريق التلاعب المباشر بتنشيط الخلايا العصبية عشوائيًا أثناء التدريب، مما يؤدي إلى تدريب مجموعة من الشبكات الضعيفة بشكل فعال.

التنفيذ

طبقات التسرب هي مكونات قياسية في أطر التعلم العميق الرئيسية. وهي متاحة بسهولة في مكتبات مثل PyTorch و TensorFlowمما يجعلها سهلة الدمج في بنى الشبكات العصبية.

قراءة الكل