مسرد المصطلحات

الانتشار العكسي

تعرّف على كيفية تدريب الشبكات العصبية بالترحيل العكسي وتقليل معدلات الخطأ وتشغيل تطبيقات الذكاء الاصطناعي مثل التعرف على الصور والبرمجة اللغوية العصبية بكفاءة.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

يعد التكاثر الخلفي، وهو اختصار لعبارة "الانتشار العكسي للأخطاء"، خوارزمية أساسية لتدريب الشبكات العصبية الاصطناعية (NNs)، خاصةً في مجال التعلم العميق (DL). وهي بمثابة الآلية الأساسية التي تمكن النماذج من التعلم من أخطائها أثناء عملية تدريب النموذج. وتحسب الخوارزمية بكفاءة مساهمة كل معلمة (مثل أوزان النموذج والتحيزات) داخل الشبكة في الخطأ الكلي الملاحظ في تنبؤات النموذج. ثم يتم استخدام معلومات التدرج هذه من خلال خوارزميات التحسين لضبط المعلمات بشكل متكرر، مما يؤدي إلى تحسين أداء النموذج ودقته بشكل تدريجي.

كيف يعمل الانتشار العكسي

وعادةً ما تتبع عملية الانتشار العكسي مسارًا أماميًا أوليًا حيث تتدفق بيانات الإدخال عبر الشبكة لتوليد تنبؤ. بعد مقارنة التنبؤ بالقيمة المستهدفة الفعلية باستخدام دالة الخسارة، يتم تنفيذ خوارزمية الترحيل العكسي على مرحلتين رئيسيتين:

  1. تمرير إلى الأمام: يتم إدخال البيانات المدخلة إلى الشبكة العصبونية، وتمر عبر طبقات من الخلايا العصبونية، حيث تطبق كل منها أوزانها وانحيازاتها ودالة تنشيط (مثل ReLU أو Sigmoid)، حتى يتم إنشاء تنبؤ بالمخرجات.
  2. التمرير العكسي: تحسب الخوارزمية الخطأ (الفرق بين التنبؤ والقيمة الحقيقية) باستخدام دالة الخسارة المختارة. ثم تنشر إشارة الخطأ هذه إلى الخلف عبر الشبكة، طبقة تلو الأخرى. وباستخدام قاعدة السلسلة من حساب التفاضل والتكامل، تقوم بحساب تدرج دالة الخسارة بالنسبة لكل وزن وانحياز في الشبكة. يمثل هذا التدرج مدى تأثير تغيير بسيط في كل معلمة على الخطأ الكلي. للحصول على فهم مرئي، تقدم مصادر مثل "حساب التفاضل والتكامل على الرسوم البيانية الحاسوبية" تفسيرات مفيدة.

وبمجرد حساب التدرجات، تستخدم خوارزمية التحسين، مثل نزول التدرج أو المتغيرات مثل نزول التدرج العشوائي (SGD) أو مُحسِّن آدم، هذه التدرجات لتحديث weights and biases الشبكة weights and biases. والهدف من ذلك هو تقليل دالة الخسارة إلى الحد الأدنى، وتعليم الشبكة بشكل فعال لإجراء تنبؤات أفضل على مدى الحقب المتتالية.

الأهمية في التعلم العميق

لا يمكن الاستغناء عن الانتثار الخلفي في التعلّم العميق الحديث. فكفاءتها في حساب التدرجات تجعل تدريب البنى العميقة والمعقدة للغاية ممكنًا من الناحية الحسابية. ويشمل ذلك نماذج مثل الشبكات العصبية التلافيفية (CNNs)، التي تتفوق في مهام الرؤية الحاسوبية، والشبكات العصبية المتكررة (RNNs)، التي تُستخدم عادةً للبيانات المتسلسلة كما هو الحال في معالجة اللغات الطبيعية (NLP). بدون الترحيل العكسي، لن يكون تعديل ملايين المعلمات في النماذج الكبيرة مثل GPT-4 أو تلك التي تم تدريبها على مجموعات بيانات ضخمة مثل ImageNet أمرًا عمليًا. فهي تمكّن النماذج من تعلّم الميزات المعقدة والتمثيلات الهرمية من البيانات تلقائيًا، مما يدعم العديد من التطورات في مجال الذكاء الاصطناعي منذ انتشاره، كما هو مفصّل في المصادر التي تغطي تاريخ التعلم العميق. أطر عمل مثل PyTorch و TensorFlow تعتمد بشكل كبير على محركات التمايز التلقائي التي تطبق التكاثر العكسي.

التكاثر الخلفي مقابل خوارزميات التحسين

من المهم التمييز بين الترحيل العكسي وخوارزميات التحسين. الترحيل العكسي هو الطريقة المستخدمة لحساب التدرجات (مساهمة الخطأ لكل معلمة). من ناحية أخرى، خوارزميات التحسين هي الاستراتيجيات التي تستخدم هذه التدرجات المحسوبة لتحديث معلمات النموذجweights and biases) من أجل تقليل الخسارة. يوفر الانتشار الخلفي اتجاه التحسين، بينما يحدد المُحسِّن حجم الخطوة(معدل التعلّم) وطريقة التحديث.

التطبيقات الواقعية

يُستخدم الانتثار الخلفي ضمنيًا كلما خضع نموذج التعلم العميق للتدريب. فيما يلي مثالان ملموسان:

  1. الكشف عن الكائنات باستخدام Ultralytics YOLO: عند تدريب Ultralytics YOLO (مثل YOLOv8 أو YOLO11) لاكتشاف الأجسام على مجموعة بيانات مثل COCO، يُستخدم التكاثر العكسي في كل تكرار تدريبي. بعد أن يتنبأ النموذج بالمربعات والفئات المحددة، يتم حساب الخسارة (على سبيل المثال، مقارنة المربعات المتوقعة بالحقيقة الأرضية). يحسب الترحيل الخلفي تدرجات جميع الأوزان في جميع أنحاء العمود الفقري للنموذج ورأس الكشف. يستخدم المُحسِّن بعد ذلك هذه التدرجات لضبط الأوزان، مما يحسّن قدرة النموذج على تحديد موقع الأجسام وتصنيفها بدقة. يمكن للمستخدمين الاستفادة من من منصات مثل Ultralytics HUB لإدارة عملية التدريب هذه، والاستفادة من تطبيقات الترحيل العكسي الفعالة. وهذا أمر بالغ الأهمية للتطبيقات التي تتراوح بين المركبات ذاتية القيادة وأنظمة الأمن.
  2. نماذج معالجة اللغات الطبيعية: يتم تدريب النماذج اللغوية الكبيرة (LLMs) مثل نماذج BERT و GPT باستخدام الترحيل العكسي. على سبيل المثال، في مهمة تحليل المشاعر، يتنبأ النموذج بالمشاعر (إيجابية، سلبية، محايدة) لنص معين. ينتج عن الفرق بين المشاعر المتوقعة والتسمية الفعلية قيمة خطأ. يحسب الانتشار الخلفي مقدار مساهمة كل معلمة في الشبكة الواسعة في هذا الخطأ. ثم تقوم خوارزميات التحسين بتحديث هذه المعلمات، مما يمكّن النموذج من فهم الفروق اللغوية والسياق والمشاعر بشكل أفضل على مدار التدريب. وتستكشف مجموعات البحث الأكاديمي مثل مجموعة ستانفورد للبرمجة اللغوية العصبية هذه التقنيات وتصقلها باستمرار.
قراءة الكل