مسرد المصطلحات

طبقة التسرب

اكتشف كيف تمنع الطبقات المنسحبة الإفراط في تركيب الشبكات العصبية من خلال تحسين التعميم والمتانة وأداء النموذج.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

تُعد طبقة التسرب تقنية أساسية تُستخدم في تدريب الشبكات العصبية (NN) لمكافحة مشكلة الإفراط في التركيب. وقد أصبح التسرب الذي قدمه هينتون وآخرون في ورقتهم البحثية المؤثرة لعام 2014، طريقة تنظيم معتمدة على نطاق واسع في التعلم العميق (DL)، وهي فعالة بشكل خاص في الشبكات الكبيرة ذات المعلمات الكثيرة. ويتمثل هدفها الأساسي في تحسين قدرة النموذج على التعميم، مما يضمن أداءه بشكل جيد على البيانات غير المرئية، وليس فقط على بيانات التدريب.

كيف يعمل التسرب من المدرسة

أثناء عملية تدريب النموذج، تقوم الطبقة المنسدلة "بإسقاط" أو إلغاء تنشيط جزء من الخلايا العصبية (الوحدات) في تلك الطبقة بشكل عشوائي لكل عينة تدريب. وهذا يعني أن مخرجات هذه الخلايا العصبية المختارة يتم تعيينها إلى الصفر، ولا تساهم في التمرير الأمامي أو تشارك في خطوة التكاثر الخلفي لتلك العينة المحددة. يتم تحديد جزء من الخلايا العصبية التي سيتم إسقاطها من خلال معدل التسرب، وهو معيار مفرط يتراوح عادةً بين 0.2 و 0.5.

بشكل حاسم، يكون التسرب نشطًا فقط أثناء التدريب. أثناء الاستدلال أو التنبؤ على بيانات الاختبار، تكون جميع الخلايا العصبية نشطة. وللتعويض عن حقيقة أن الخلايا العصبية تكون نشطة أثناء الاستدلال أكثر من نشاطها أثناء التدريب، عادةً ما يتم تحجيم مخرجات الطبقة بمعدل التسرب (وهي تقنية تسمى التسرب المقلوب، والتي يتم تنفيذها عادةً في أطر مثل PyTorch و TensorFlow).

فوائد استخدام التسرب

تتمثل الفائدة الأساسية لاستخدام طبقات التسرب في تحسين تعميم النموذج وتقليل الإفراط في التخصيص. ويحقق ذلك من خلال عدة آليات:

  • تقليل التكيف المشترك: من خلال إسقاط الخلايا العصبية بشكل عشوائي، يمنع التسرب الوحدات داخل الطبقة من الاعتماد بشكل مفرط على بعضها البعض (التكيف المشترك) لإصلاح الأخطاء أثناء التدريب. وهذا يجبر كل خلية عصبية على تعلم ميزات أكثر قوة واستقلالية مفيدة بمفردها.
  • التجميع الضمني: إن تطبيق التسرب أثناء التدريب يشبه تدريب عدد كبير من الشبكات العصبية المختلفة "الضعيفة" ذات الأوزان المشتركة. في وقت الاستنتاج، فإن استخدام الشبكة الكاملة مع تنشيطات متدرجة يقترب من متوسط تنبؤات هذه المجموعة الكبيرة، مما يؤدي عمومًا إلى أداء وقوة أفضل.
  • الكفاءة الحسابية: على الرغم من تشابهه من الناحية المفاهيمية مع تدريب نماذج متعددة، إلا أن التسرب يحقق هذا التأثير التجميعي في دورة تدريب نموذج واحد، مما يجعله أرخص بكثير من الناحية الحسابية من تجميع النماذج الصريحة.

التطبيقات الواقعية

يُستخدم التسرب على نطاق واسع في مختلف مجالات الذكاء الاصطناعي (AI) والتعلم الآلي (ML):

  1. الرؤية الحاسوبية: في الرؤية الحاسوبية (CV)، يساعد التسرب في نماذج مثل Ultralytics YOLO أداءً أفضل في مهام مثل اكتشاف الأشياء، وتصنيف الصور، وتجزئة النماذج. على سبيل المثال، في أنظمة القيادة الذاتية، يمكن أن يؤدي التسرب إلى جعل نماذج الكشف أكثر قوة في مواجهة التغيرات في الإضاءة أو الطقس أو الانسداد، مما يحسن السلامة والموثوقية. يمكن إدارة تدريب مثل هذه النماذج بفعالية باستخدام منصات مثل Ultralytics HUB.
  2. معالجة اللغة الطبيعية (NLP): يتم تطبيق التسرب بشكل شائع في نماذج معالجة اللغات الطبيعية مثل المحولات و BERT. في تطبيقات مثل الترجمة الآلية أو تحليل المشاعر، يمنع التسرب النموذج من حفظ عبارات أو تراكيب جمل محددة من بيانات التدريب، مما يؤدي إلى فهم أفضل وتوليد نص جديد. وهذا يعزز أداء روبوتات الدردشة الآلية وأدوات تلخيص النصوص.

المفاهيم والتمييزات ذات الصلة

التسرب هو أحد الأساليب العديدة المستخدمة للتنظيم في التعلم العميق. وتشمل التقنيات الأخرى:

  • الانتظام L1 و L2: تضيف هذه الأساليب عقوبة إلى دالة الخسارة بناءً على مقدار أوزان النموذج، مما يشجع على تقليل الأوزان. اقرأ المزيد عن تنظيم L1/L2.
  • تطبيع الدُفعات: يعمل التطبيع الدفعي (BN) على تطبيع التنشيطات داخل الطبقة، مما قد يؤدي إلى استقرار التدريب وأحيانًا يوفر تأثيرًا تنظيميًا خفيفًا، مما يقلل من الحاجة إلى التسرب القوي. بينما تعالج BN التحول المتغير الداخلي، يستهدف التسرب مباشرةً تعقيد النموذج من خلال فرض التكرار.
  • زيادة البيانات: تعمل تقنيات مثل تدوير الصور أو تحجيمها أو اقتصاصها(زيادة البيانات) على زيادة تنوع مجموعة بيانات التدريب بشكل مصطنع، مما يساعد أيضًا على منع الإفراط في التعميم وتحسين التعميم. غالبًا ما يتم استخدام التسرب وزيادة البيانات معًا.

باختصار، تُعد طبقة التسرب تقنية تنظيم بسيطة لكنها قوية وضرورية لتدريب نماذج التعلم العميق القوية في مختلف التطبيقات، بدءًا من الرؤية الحاسوبية إلى البرمجة اللغوية العصبية.

قراءة الكل