في التعلّم الآلي (ML)، لا سيما في سياق تدريب نماذج التعلّم العميق، تمثل الحلقة الزمنية تمريرة واحدة كاملة لمجموعة بيانات التدريب بأكملها من خلال خوارزمية التعلّم. نماذج التدريب هي عملية تكرارية حيث يتعلم النموذج الأنماط من خلال معالجة البيانات بشكل متكرر. تعتبر الحقب الزمنية معيارًا أساسيًا يحدد عدد المرات التي ستعمل فيها الخوارزمية من خلال مجموعة البيانات بأكملها، مما يسمح للنموذج بالتعلم من كل مثال ضمن البيانات عدة مرات.
شرح الحقب الزمنية
أثناء عملية التدريب، يتم تعديل المعلمات الداخلية للنموذج أو الأوزان بناءً على الأخطاء التي يرتكبها في تنبؤاته. ويحدث هذا التعديل عادةً باستخدام خوارزمية تحسين مثل خوارزمية " نزول التدرج " أو متغيراتها (مثل " آدم المُحسِّن"). تعني الحقبة الزمنية الواحدة أن كل عينة في مجموعة بيانات التدريب قد أتيحت لها فرصة لتحديث المعلمات الداخلية للنموذج مرة واحدة. بالنسبة لمجموعات البيانات الكبيرة، تكون معالجة مجموعة البيانات بأكملها مرة واحدة مكلفة من الناحية الحسابية، لذلك غالبًا ما يتم تقسيم البيانات إلى أجزاء أصغر تسمى دفعات.
الفترة الزمنية مقابل التكرار مقابل حجم الدُفعات
من المهم التمييز بين الحقبة الزمنية والمصطلحات ذات الصلة:
- حجم الدفعة: يحدد عدد العينات التي تمت معالجتها قبل تحديث أوزان النموذج.
- التكرار: يشير هذا إلى عدد الدفعات اللازمة لإكمال دورة زمنية واحدة. إذا كانت مجموعة البيانات تحتوي على 1000 عينة وحجم الدُفعة 100، فإن الدورة الواحدة تتطلب 10 تكرارات (1000 عينة / 100 عينة لكل دفعة = 10 دفعات/ تكرارات). يتضمن كل تكرار معالجة دفعة واحدة وتحديث أوزان النموذج.
- الفترة الزمنية: دورة واحدة كاملة من خلال مجموعة بيانات التدريب بأكملها. في المثال أعلاه، يشكل إكمال 10 تكرارات دورة واحدة.
فكّر في الأمر مثل قراءة كتاب: الكتاب بأكمله هو مجموعة البيانات، والفصل الواحد هو دفعة، وقراءة فصل واحد هو تكرار، وقراءة الكتاب بأكمله من الغلاف إلى الغلاف هو حقبة واحدة.
أهمية الحقب الزمنية
يُعتبر عدد الحقب الزمنية معيارًا بالغ الأهمية لأنه يحدد عدد المرات التي يتعلم فيها النموذج من مجموعة البيانات الكاملة.
- عدد قليل جدًا من الحقب الزمنية: إذا تم تدريب النموذج على عدد قليل جدًا من الحقب الزمنية، فقد لا يكون لديه ما يكفي من التعرض للبيانات لتعلم الأنماط الأساسية بفعالية. يؤدي هذا إلى عدم ملاءمة النموذج، حيث يكون أداء النموذج ضعيفًا على كل من بيانات التدريب وبيانات الاختبار غير المرئية.
- الكثير من الحقب الزمنية: على العكس من ذلك، يمكن أن يؤدي التدريب لعدد كبير جدًا من الحقب الزمنية إلى الإفراط في التكييف. في هذا السيناريو، يتعلم النموذج بيانات التدريب بشكل جيد للغاية، بما في ذلك الضوضاء والتفاصيل المحددة، مما يفقده قدرته على التعميم على البيانات الجديدة غير المرئية. قد يُظهر النموذج دقة ممتازة على مجموعة التدريب ولكن أداءه ضعيف على بيانات التحقق من الصحة أو بيانات الاختبار.
إن إيجاد التوازن الصحيح هو المفتاح لتحقيق أداء جيد للنموذج وتعميمه. وغالبًا ما يتضمن ذلك مراقبة أداء النموذج على مجموعة بيانات تحقق منفصلة أثناء التدريب.
تحديد عدد الحقب الزمنية
لا يوجد عدد "صحيح" واحد من الحلقات؛ فالقيمة المثلى تعتمد على مدى تعقيد البيانات، وحجم مجموعة البيانات، وبنية النموذج، ومعدل التعلم. تتضمن الأساليب الشائعة ما يلي:
- التجريب: تجربة أعداد مختلفة من الحقب الزمنية وتقييم الأداء.
- مراقبة مقاييس التحقق من الصحة: تتبع مقاييس مثل الخسارة والدقة على مجموعة التحقق من الصحة. وغالبًا ما يتم إيقاف التدريب عندما تتوقف هذه المقاييس عن التحسن أو تبدأ في التدهور، وهي تقنية تُعرف باسم الإيقاف المبكر.
- ضبط المعامل الفائق: البحث بشكل منهجي عن أفضل المعلمات الفائقة، بما في ذلك عدد الحقب الزمنية، وغالبًا ما يتم ذلك باستخدام أدوات أو تقنيات آلية مثل تلك الموجودة في دليل ضبط المعامل الفائق فيUltralytics .
أمثلة من العالم الحقيقي
- اكتشاف الأجسام: عند تدريب Ultralytics YOLO مثل YOLOv8 أو YOLO11على مجموعة بيانات كبيرة مثل COCO، قد يتم تدريب النموذج على عدد محدد من الحقب، لنقل 100 أو 300 حقبة. خلال كل حقبة، يقوم النموذج بمعالجة جميع الصور في مجموعة تدريب COCO، وتعديل أوزانه للتنبؤ بشكل أفضل بالمربعات المحدودة وتسميات الفئات للأشياء. تتيح منصات مثل Ultralytics HUB للمستخدمين إدارة عملية التدريب هذه بسهولة ومراقبة الأداء عبر الحقب الزمنية.
- معالجة اللغة الطبيعية (NLP): ينطوي تدريب نموذج لغوي كبير مثل BERT لمهمة مثل تحليل المشاعر على تغذية كميات هائلة من البيانات النصية من خلال النموذج. قد يحدث التدريب على عدد أقل من الحقب الزمنية (على سبيل المثال، من 3 إلى 10) بسبب الحجم الهائل لمجموعات البيانات والنماذج. تضمن كل حقبة أن يرى النموذج المجموعة النصية بأكملها مرة واحدة، مما يحسّن فهمه للفروق اللغوية الدقيقة ذات الصلة بالمشاعر. غالبًا ما تحدد أطر عمل مثل Hugging Face Transformers عدد الحقبات الافتراضية للضبط الدقيق.
الأدوات وأطر العمل
الحقب الزمنية هي معلمة قياسية في معظم أطر التعلم العميق:
- PyTorch: حلقات التدريب في PyTorch تكرر بشكل صريح على الحلقات والدفعات.
- TensorFlow: واجهات برمجة التطبيقات عالية المستوى مثل Keras داخل TensorFlow السماح للمستخدمين بتحديد عدد الحقب الزمنية مباشرة في
fit
الطريقة. - Ultralytics HUB: يوفر واجهة سهلة الاستخدام لنماذج التدريب مثل YOLO حيث يمكن للمستخدمين تكوين عدد الحقب الزمنية بسهولة ومراقبة تقدم التدريب بصريًا.
تُعد الحقب الزمنية حجر الزاوية في التعلم التكراري في التعلم الآلي، حيث توازن بين الحاجة إلى التعرض الكافي للبيانات ومخاطر الإفراط في التهيئة. إن اختيار العدد الصحيح من الحقب الزمنية، غالبًا من خلال التجريب والمراقبة الدقيقة كما هو مذكور في موارد مثل دورة CS231n في جامعة ستانفورد أو مدونة إتقان تعلم الآلة، هو المفتاح لبناء نماذج فعالة. يمكنك العثور على المزيد من التعريفات في مصادر مثل مسرد مصطلحات تعلم الآلةGoogle .