تعرّف على أساسيات الشبكات العصبية التلافيفية (CNNs) وتطبيقاتها في تصنيف الصور واكتشاف الأجسام والرؤية الحاسوبية.
الشبكة العصبية التلافيفية (CNN) هي نوع من نماذج التعلّم العميق المناسبة بشكل خاص لتحليل الصور المرئية. تُستوحى الشبكات العصبية التلافيفية من تنظيم القشرة البصرية الحيوانية وهي مصممة لتعلم التسلسلات الهرمية المكانية للسمات من الصور المدخلة بشكل تلقائي وتكييفي. لقد أصبحت هذه النماذج حجر الزاوية في مجال الرؤية الحاسوبية، مما أدى إلى تحقيق تقدم في مختلف التطبيقات، بدءًا من تصنيف الصور واكتشاف الأجسام إلى المهام الأكثر تعقيدًا مثل تجزئة الصور وتحليل الفيديو.
تستند شبكات CNN على عدة مفاهيم أساسية تمكّنها من توفير قدرات معالجة الصور القوية. في جوهرها، تستخدم الشبكات المعالجة الشبكية المتكاملة طبقات تلافيفية لمسح الصور المدخلة باستخدام مرشحات صغيرة، واستخراج الميزات ذات الصلة مع الحفاظ على علاقاتها المكانية. تكتشف هذه المرشحات، التي يتم تعلمها أثناء التدريب، أنماطًا مثل الحواف والأنسجة والأشكال.
تُعد طبقات التجميع مكونًا أساسيًا آخر، حيث تعمل على تقليل الأبعاد المكانية لخرائط السمات التي تنتجها الطبقات التلافيفية. تساعد عملية تصغير العينات هذه على تقليل التعقيد الحسابي وتوفر درجة من عدم ثبات الترجمة، مما يعني أن الشبكة يمكنها التعرف على السمات بغض النظر عن موقعها الدقيق في الصورة.
تُدخل دالات التنشيط اللاخطية في الشبكة، مما يسمح لشبكات CNN بتعلم العلاقات المعقدة وغير الخطية داخل البيانات. تتضمن دوال التنشيط الشائعة وحدة خطية معدلة (ReLU)، والتي تساعد في التخفيف من مشكلة تلاشي التدرج وتسريع التدريب.
تتكون البنية النموذجية لشبكة CNN من سلسلة من الطبقات التلافيفية والتجميعية، تليها طبقة أو أكثر من الطبقات المتصلة بالكامل. تقوم الطبقات التلافيفية باستخراج الميزات، بينما تقوم طبقات التجميع بتقليل الأبعاد. ثم تقوم الطبقات المتصلة بالكامل، على غرار تلك الموجودة في الشبكات العصبية التقليدية، بتصنيف الميزات المستخرجة إلى فئات مختلفة.
وعادةً ما تكون مدخلات شبكة سي إن إن عبارة عن صورة متعددة القنوات (على سبيل المثال، RGB)، وتطبق كل طبقة تلافيفية مجموعة من المرشحات القابلة للتعلم على هذه المدخلات، مما ينتج عنه مجموعة من خرائط السمات. يتم بعد ذلك تمرير خرائط السمات هذه من خلال دالة تنشيط وغالبًا ما تكون طبقة تجميع قبل أن يتم تغذيتها إلى الطبقة التلافيفية التالية. تسمح هذه المعالجة الهرمية لشبكات CNN بتعلم ميزات معقدة بشكل متزايد في كل طبقة.
أحدثت شبكات CNN ثورة في مجالات مختلفة من خلال قدرتها على معالجة البيانات المرئية وتفسيرها. ويتضمن تطبيقان بارزان في العالم الحقيقي ما يلي:
يتضمن تصنيف الصور تعيين تصنيف لصورة بأكملها. وقد حققت CNNs أداءً فائقًا في هذه المهمة، حيث تقوم بتصنيف الصور بدقة إلى فئات محددة مسبقًا. على سبيل المثال، يمكن تدريب شبكة CNN على التمييز بين أنواع مختلفة من الحيوانات أو المركبات أو الحالات الطبية في الصور. تُستخدم هذه القدرة في تطبيقات مختلفة، مثل التشخيص الطبي الآلي، ووضع علامات على المحتوى في وسائل التواصل الاجتماعي، ومراقبة الجودة في التصنيع.
يتخطى اكتشاف الكائنات حدود التصنيف ليس فقط من خلال تحديد الكائنات داخل الصورة ولكن أيضًا من خلال تحديد مواقعها باستخدام المربعات المحدودة. Ultralytics YOLO (أنت تنظر مرة واحدة فقط) هي بنية شائعة تستفيد من شبكات التواصل الاجتماعي (CNNs) للكشف عن الأجسام في الوقت الفعلي. YOLO يقسم الصورة إلى شبكة ويتنبأ بالمربعات المحدودة واحتمالات الفئة لكل خلية من خلايا الشبكة. يتيح هذا النهج الكشف السريع والدقيق، مما يجعله مناسبًا لتطبيقات مثل القيادة الذاتية وأنظمة المراقبة وإدارة المخزون. تعرّف على المزيد حول بنيات اكتشاف الأجسام.
على الرغم من أن الشبكات العصبية الشبكية الشبكية (CNNs) هي نوع من الشبكات العصبية، إلا أنها تختلف بشكل كبير عن البنى الأخرى مثل الشبكات العصبية المتكررة (RNNs) والشبكات العصبية متعددة الطبقات (MLPs).
من ناحية أخرى، تم تصميم شبكات CNNs خصيصًا لاستغلال البنية المكانية للصور من خلال الطبقات التلافيفية والتجميعية. هذا التخصص يجعلها فعالة للغاية في مهام الرؤية الحاسوبية.
يتطور مجال الشبكات الشبكية ذات النماذج الشبكية (CNNs) باستمرار، حيث تؤدي الأبحاث المستمرة إلى تطوير بنى وتقنيات جديدة. وقد أصبح التعلّم التحوّلي، حيث يتم ضبط النماذج المدربة مسبقًا لمهام محددة، ممارسة شائعة، مما يقلل من الحاجة إلى مجموعات بيانات كبيرة مصنفة ووقت تدريب طويل. استكشف المزيد عن التعلّم التحويلي.
وتوفر أدوات مثل Ultralytics HUB منصات لتدريب ونشر نماذج CNN، مما يبسّط عملية التطوير. بالإضافة إلى ذلك، توفر أطر مثل PyTorch و TensorFlow توفر دعمًا قويًا لبناء وتدريب شبكات CNN، مع مكتبات واسعة وموارد مجتمعية. تعرف على المزيد حول التعرف على الصور.
بالنسبة للمهتمين باستكشاف المزيد عن بنيات الشبكات العصبية الشبكية المتداخلة، توفر مصادر مثل "التعلم العميق باستخدام Python" لفرانسوا شوليه والأبحاث الأكاديمية على Google Scholar معرفة متعمقة. ولمزيد من المعلومات حول كيفية مقارنة شبكات CNN بالشبكات العصبية الأخرى، يقدم مسرد المصطلحاتUltralytics مقارنات مفصلة.