مسرد المصطلحات

الشبكات المتبقية (ResNet)

اكتشف كيف تُحدث شبكات ResNets ثورة في التعلُّم العميق من خلال حل التدرجات المتلاشية وتمكين الشبكات فائقة العمق لتحليل الصور والبرمجة اللغوية العصبية وغيرها.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

تمثل الشبكات المتبقية، والمعروفة باسم ResNet، بنية رائدة للشبكات العصبية التلافيفية (CNN) طورها كايمينج هي وزملاؤه في Microsoft Research. تم تقديمها في ورقتهم البحثية لعام 2015 بعنوان"التعلم العميق المتبقي للتعرف على الصور"، وقد عالجت ResNet تحديًا رئيسيًا في التعلم العميق (DL): مشكلة التدهور. تحدث هذه المشكلة عندما تؤدي إضافة المزيد من الطبقات إلى شبكة عميقة جدًا إلى ارتفاع خطأ التدريب، على عكس التوقع بأن النماذج الأعمق يجب أن يكون أداؤها أفضل. وقد سمح ابتكار ResNet بالتدريب الناجح لشبكات أعمق بكثير مما كان ممكناً في السابق، مما أدى إلى تقدم كبير في أحدث ما توصلت إليه التكنولوجيا في مختلف مهام الرؤية الحاسوبية.

كيف تعمل شبكات ResNets: تخطي الاتصالات

الفكرة الأساسية وراء ريس نت هي إدخال "اتصالات التخطي" أو "اتصالات الاختصار". في الشبكات العميقة التقليدية، تتغذى كل طبقة بالتتابع على الطبقة التالية. تعدّل شبكة ResNet هذا الأمر من خلال السماح بإضافة مدخلات مجموعة من الطبقات إلى مخرجات تلك المجموعة. يؤدي هذا إلى إنشاء "كتلة متبقية" حيث تتعلم الطبقات تعيينًا متبقيًا (الفرق بين المدخلات والمخرجات المطلوبة) بدلاً من محاولة تعلم التعيين الأساسي بأكمله مباشرةً. إذا كانت الدالة المثلى أقرب إلى تعيين الهوية (حيث يجب أن يكون الخرج هو نفسه المدخلات)، فمن الأسهل على الشبكة أن تتعلم جعل المتبقي صفراً (عن طريق توجيه أوزان الطبقات المكدسة نحو الصفر) بدلاً من تعلم تعيين الهوية نفسه من خلال الطبقات غير الخطية.

تعمل وصلات التخطي هذه على تسهيل تدفق التدرج أثناء الترحيل العكسي، مما يخفف من مشكلة تلاشي التدرج التي غالبًا ما تصيب الشبكات العميقة جدًا. يسمح ذلك ببناء شبكات ذات مئات أو حتى آلاف الطبقات وتدريبها بفعالية، مما يحقق تحسينات ملحوظة في الدقة على مجموعات البيانات المعيارية الصعبة مثل ImageNet.

المفاهيم الرئيسية

  • الكتلة المتبقية: وحدة البناء الأساسية لشبكة ResNet، وتتألف من بضع طبقات تلافيفية واتصال تخطي يضيف مدخلات الكتلة إلى مخرجاتها.
  • تخطي الاتصال (اختصار): اتصال مباشر يتجاوز طبقة أو أكثر من الطبقات، مما يتيح سهولة تدفق التدرج وتعلُّم تعيين الهوية.
  • تعيين الهوية: عندما تمرر طبقة أو كتلة ببساطة مدخلاتها دون تغيير. تسهّل اتصالات التخطي على الكتل المتبقية تقريب تعيينات الهوية إذا لزم الأمر.
  • مشكلة التدهور: وهي الظاهرة التي يكون فيها أداء الشبكات الأعمق أسوأ (خطأ أعلى في التدريب والاختبار) من نظيراتها الأقل عمقًا، ويتم معالجتها من خلال التعلم المتبقي لشبكة ResNet.

الملاءمة في الرؤية الحاسوبية

وسرعان ما أصبحت معماريات ResNet عمودًا فقريًا قياسيًا للعديد من مهام الرؤية الحاسوبية التي تتجاوز تصنيف الصور، بما في ذلك:

  • كشف الكائنات: العديد من نماذج الكشف، مثل Faster R-CNN وبعض المتغيرات المستخدمة في الأنظمة مقارنةً بـ Ultralytics YOLO (على سبيل المثال RT-DETR)، تستخدم العمود الفقري لشبكة ResNet لاستخراج الميزات(مسرد مصطلحات اكتشاف الكائنات).
  • تجزئة الصور: غالبًا ما تستخدم البنى مثل Mask R-CNN القناع R-CNN لاستخراج الميزات المكانية الغنية اللازمة للتصنيف على مستوى البكسل(مسرد مصطلحات تجزئة الصور).

إن قدرتها على استخراج ميزات قوية من الصور جعلتها بنية متعددة الاستخدامات ومعتمدة على نطاق واسع.

التطبيقات الواقعية

  1. تحليل الصور الطبية: تُستخدم شبكات ResNet على نطاق واسع في تحليل الصور الطبية (الأشعة السينية والتصوير المقطعي المحوسب والتصوير بالرنين المغناطيسي) للكشف عن الحالات الشاذة مثل الأورام أو اعتلال الشبكية السكري. يسمح العمق الذي تتيحه شبكة ResNet للنموذج بتعلم الأنماط المعقدة التي تدل على الأمراض، مما يساعد أخصائيي الأشعة في التشخيص. يمكنك استكشاف التطبيقات ذات الصلة في الذكاء الاصطناعي في مجال الأشعة ومعرفة المزيد عن هذا المجال في تحليل الصور الطبية. غالباً ما تستفيد مبادرات مثل برنامج Bridge2AI التابع للمعاهد الوطنية للصحة من هذه النماذج المتقدمة.
  2. القيادة الذاتية: غالبًا ما تعتمد أنظمة الإدراك في السيارات ذاتية القيادة على البنى القائمة على ResNet للكشف عن الأجسام في الوقت الفعلي والتعرف على المشاة والمركبات وإشارات المرور وإشارات الطرق. تُعد متانة ودقة نماذج ResNet العميقة ضرورية للسلامة في سيناريوهات القيادة المعقدة(الذكاء الاصطناعي في حلول السيارات). توضح شركات مثل Waymo أهمية أنظمة الإدراك القوية.

مقارنة مع البنى الأخرى

  • شبكة VGGNet: بينما أظهرت شبكة VGGNet فائدة العمق باستخدام التلافيف البسيطة 3 × 3، إلا أنها واجهت صعوبة في التقارب للشبكات العميقة جدًا بسبب تلاشي التدرجات. وقد عالجت ResNet هذا القيد مباشرةً(مدونة تاريخ الذكاء الاصطناعي للرؤية، ورقة VGGNet).
  • الشبكات الكثيفة: تقوم الشبكات الكثيفة بتوصيل كل طبقة بكل طبقة أخرى بطريقة تغذية إلى الأمام، مما يعزز إعادة استخدام الميزات. وهذا يختلف عن اتصالات التخطي الإضافية لشبكة ResNet. يهدف كلاهما إلى تحسين تدفق المعلومات ولكنهما يستخدمان آليات مختلفة(ورقة DenseNet).
  • محولات الرؤية (ViT): تستخدم البنى الأكثر حداثة مثل ViT آليات الانتباه، وتختلف عن النهج التلافي لشبكات ResNet، وقد أظهرت أداءً تنافسيًا أو متفوقًا على العديد من المعايير، على الرغم من أن شبكات ResNets لا تزال مؤثرة ومستخدمة على نطاق واسع.

الأدوات والتنفيذ

تتوفّر بنى ResNet بسهولة في أطر التعلم العميق الرئيسية مثل PyTorchPyTorch موقعPyTorch الرسمي) و TensorFlowTensorFlow ). يمكن الوصول إلى النماذج المدرّبة مسبقًا، والتي غالبًا ما يتم تدريبها على ImageNet، من خلال مكتبات مثل torchvision، مما يتيح التعلم الفعال للنقل. تسمح منصات مثل Ultralytics HUB للمستخدمين بالاستفادة من مختلف البنى، بما في ذلك البنى القائمة على ResNet، لتدريب النماذج المخصصة ونشرهاUltralytics وثائقUltralytics HUB). يمكنك العثور على المزيد من الموارد التعليمية حول CNNs في جامعة ستانفورد CS231n أو من خلال دورات مثل تلك التي يقدمها DeepLearning.AI.

قراءة الكل