التكميم الكمي للنموذج هو تقنية حاسمة لتحسين النموذج تُستخدم في التعلم العميق (DL) لتقليل التكاليف الحسابية وتكاليف الذاكرة للنماذج. ويتم تحقيق ذلك عن طريق تحويل الدقة العددية لمعلمات النموذج(الأوزان والتفعيلات) من تمثيلات ذات دقة أعلى، عادةً ما تكون أرقام ذات 32 بت ذات الفاصلة العائمة(FP32)، إلى تنسيقات ذات دقة أقل، مثل الفاصلة العائمة ذات 16 بت (FP16) أو الأعداد الصحيحة ذات 8 بت(INT8) أو حتى تمثيلات بتات أقل. تجعل هذه العملية نماذج التعلم الآلي أصغر وأسرع وأكثر كفاءة في استخدام الطاقة، وهو أمر حيوي بشكل خاص لنشر النماذج المعقدة في البيئات محدودة الموارد مثل الأجهزة المحمولة أو أنظمة الذكاء الاصطناعي المتطورة.
كيف يعمل التكميم الكمي للنموذج
يتضمن التكميم الكمي للنموذج في جوهره تخطيط نطاق القيم الموجودة في الموتر عالي الدقة (مثل الأوزان والتفعيلات في FP32) إلى نطاق أصغر يمكن تمثيله بأنواع بيانات أقل دقة (مثل INT8). يقلل هذا التحويل بشكل كبير من الذاكرة المطلوبة لتخزين النموذج والموارد الحسابية اللازمة للاستدلال، حيث أن العمليات على الأرقام ذات الدقة المنخفضة (خاصة الأعداد الصحيحة) غالبًا ما تكون أسرع وأكثر كفاءة في استخدام الطاقة على الأجهزة الحديثة مثل وحدات معالجة الرسومات، ووحدات المعالجة المركزية، والمسرعات المتخصصة مثل وحدات المعالجة الحر ارية أو وحدات المعالجة العصبية. الهدف هو تحقيق مكاسب الكفاءة هذه بأقل تأثير على الأداء التنبؤي للنموذج.
فوائد التكميم الكمي للنموذج
يوفر تطبيق التكميم على نماذج التعلم العميق العديد من المزايا الرئيسية:
- تقليل حجم النموذج: تتطلب أنواع البيانات الأقل دقة مساحة تخزين أقل، مما يجعل تخزين النماذج وتوزيعها أسهل، خاصةً للنشر على الجهاز.
- سرعة استدلال أسرع: يتم تنفيذ العمليات الحسابية ذات الأرقام ذات الدقة المنخفضة (خاصةً الأعداد الصحيحة) بشكل أسرع على الأجهزة المتوافقة، مما يقلل من زمن انتقال الاستدلال. هذا أمر بالغ الأهمية لتطبيقات الوقت الحقيقي.
- تحسين كفاءة الطاقة: تؤدي العمليات الحسابية الأسرع وتقليل الوصول إلى الذاكرة إلى انخفاض استهلاك الطاقة، مما يؤدي إلى إطالة عمر البطارية على الأجهزة المحمولة والأجهزة المتطورة.
- توافق محسّن للأجهزة: تم تحسين العديد من مسرّعات الأجهزة المتخصصة(وحدات المعالجة الحافة TPU، ووحدات المعالجة العصبية على معالجات ARM) من أجل إجراء عمليات حسابية صحيحة منخفضة الدقة، مما يتيح تعزيزات كبيرة في الأداء للنماذج المكمّلة.
تقنيات التحويل الكمي
هناك طريقتان أساسيتان لنمذجة التكميم الكمي:
- التكميم اللاحق للتدريب (PTQ): تتضمن هذه الطريقة تكميم نموذج تم تدريبه بالفعل باستخدام دقة الفاصلة العائمة القياسية. وهي أسهل في التنفيذ لأنها لا تتطلب إعادة التدريب أو الوصول إلى بيانات التدريب الأصلية. ومع ذلك، يمكن أن يؤدي في بعض الأحيان إلى انخفاض ملحوظ في دقة النموذج. توفّر أدوات مثل مجموعة أدوات تحسين نموذجTensorFlow إمكانات PTQ.
- التدريب الواعي بالتقدير الكمي (QAT): تحاكي هذه التقنية تأثيرات التكميم أثناء عملية تدريب النموذج. من خلال جعل النموذج "على دراية" بتخفيض الدقة القادم، غالبًا ما يحقق QAT دقة أفضل مقارنةً ب PTQ، خاصةً بالنسبة للنماذج الحساسة للتكميم، على الرغم من أنه يتطلب تعديلات على سير عمل التدريب والوصول إلى بيانات التدريب. يوفرPyTorch دعمًا ل QAT.
التطبيقات الواقعية
يُستخدم تكميم النماذج على نطاق واسع في مختلف المجالات:
- تطبيقات الرؤية المتنقلة: تمكين مهام الرؤية الحاسوبية المتطورة مثل اكتشاف الأجسام في الوقت الحقيقي (على سبيل المثال، باستخدام نموذج Ultralytics YOLO الكمي) أو تجزئة الصور مباشرةً على الهواتف الذكية لتطبيقات مثل الواقع المعزز أو تحرير الصور أو البحث المرئي. يجعل التكميم الكمي هذه النماذج الصعبة ممكنة على الأجهزة المحمولة.
- المركبات ذاتية القيادة والروبوتات: نشر النماذج الإدراكية (للكشف عن المشاة والمركبات والعوائق) في السيارات أو الطائرات بدون طيار حيث يكون زمن الاستجابة المنخفض وكفاءة الطاقة أمرًا بالغ الأهمية للسلامة والقدرة على التحمل التشغيلي. تساعد النماذج الكمية في تلبية هذه المتطلبات الصارمة للمعالجة في الوقت الحقيقي.
- أجهزة الذكاء الاصطناعي المتطورة: تشغيل نماذج الذكاء الاصطناعي لمهام مثل الكشف عن العيوب الصناعية أو أتمتة المنزل الذكي أو المراقبة الصحية القابلة للارتداء على وحدات تحكم دقيقة منخفضة الطاقة أو معالجات حافة متخصصة.
الاعتبارات والمفاهيم ذات الصلة
على الرغم من أن التكميم مفيد للغاية، إلا أنه من المحتمل أن يؤثر على دقة النموذج. من الضروري إجراء تقييم دقيق باستخدام مقاييس الأداء ذات الصلة بعد التكميم. يمكن أن تساعد تقنيات مثل استخدام بنيات النماذج الملائمة للتقدير الكمي (على سبيل المثال، استبدال بعض وظائف التنشيط كما هو الحال في YOLO) في التخفيف من تدهور الدقة، كما نوقش في نشر نماذج YOLOv8 المكمّمة.
التكميم الكمي للنموذج هو أحد تقنيات تحسين النماذج العديدة. وتشمل التقنيات الأخرى ما يلي:
- تشذيب النموذج: إزالة الوصلات (الأوزان) الزائدة أو غير المهمة في الشبكة العصبية.
- الدقة المختلطة: استخدام مجموعة من الدقة العددية المختلفة (على سبيل المثال، FP16 و FP32) أثناء التدريب أو الاستدلال.
- تقطير المعرفة: تدريب نموذج "طالب" أصغر حجمًا على محاكاة سلوك نموذج "معلم" أكبر حجمًا ومدرب مسبقًا.
يدعم Ultralytics تصدير النماذج إلى تنسيقات مختلفة تسهل عملية التكميم والنشر، بما في ذلك ONNX, OpenVINO (المحسّن لأجهزةIntel ), TensorRT ( لوحدات معالجة الرسوماتNVIDIA ), CoreML (لأجهزة Apple) و TFLite، مما يتيح نشر النماذج بكفاءة عبر منصات أجهزة متنوعة. يمكنك إدارة نماذجك ونشرها، بما في ذلك الإصدارات الكمية، باستخدام أدوات مثل Ultralytics HUB. عمليات التكامل مثل Neural Magic أيضًا الاستفادة من التكميم لتحسين CPU .