مسرد المصطلحات

TensorRT

تحسين نماذج التعلم العميق باستخدام TensorRT للاستدلال الأسرع والفعال على وحدات معالجة الرسومات NVIDIA . تحقيق أداء في الوقت الفعلي مع YOLO وتطبيقات الذكاء الاصطناعي.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

TensorRT هو مُحسِّن استقرائي عالي الأداء للتعلم العميق ومكتبة وقت تشغيل تم تطويرها بواسطة NVIDIA. وهي تعمل على تسريع نماذج التعلم العميق علىوحدات معالجة الرسومات NVIDIA (GPUs) من خلال تطبيق تقنيات تحسين مختلفة. الهدف الأساسي لمكتبة TensorRT هو تحقيق أقل زمن استنتاج ممكن وأعلى إنتاجية للنماذج المنشورة في بيئات الإنتاج، مما يجعلها حاسمة لتطبيقات الاستدلال في الوقت الفعلي.

كيف يعمل TensorRT

يأخذ TensorRT شبكة عصبية مُدرَّبة، وغالبًا ما يتم تصديرها من أطر مثل PyTorch أو TensorFlowويحسنها خصيصًاGPU NVIDIA GPU المستهدفة. تتضمن خطوات التحسين الرئيسية ما يلي:

  • تحسين الرسم البياني: دمج الطبقات والتخلص من العمليات الزائدة عن الحاجة لإنشاء رسم بياني حاسوبي أكثر كفاءة.
  • معايرة الدقة: تقليل الدقة العددية لأوزان النماذج (على سبيل المثال، من FP32 إلى FP16 أو INT8) بأقل تأثير على الدقة، مما يسرّع العمليات الحسابية بشكل كبير ويقلل من استخدام الذاكرة.
  • الضبط التلقائي للنواة: اختيار أفضل الخوارزميات المنفذة مسبقًا (النواة) من مكتبات NVIDIA(cuDNN و cuBLAS) لطبقات النموذج المحددة GPU المستهدفة.
  • ذاكرة Tensor الديناميكية: تقليل بصمة الذاكرة عن طريق إعادة استخدام الذاكرة المخصصة للمُغَسِّرات.

تؤدي هذه التحسينات إلى محرك استدلالي عالي الكفاءة في وقت التشغيل مصمم خصيصًا لنموذج وأجهزة محددة.

الصلة Ultralytics

TensorRT هو هدف نشر رئيسي لنماذج Ultralytics YOLO . يمكن للمستخدمين تصدير نماذج Ultralytics YOLO المدربة الخاصة بهم إلى تنسيق TensorRT لتحقيق سرعات كبيرة على أجهزة NVIDIA بما في ذلك الأجهزة المتطورة مثل NVIDIA Jetson. يتيح ذلك تطبيقات عالية الأداء في مختلف المجالات. غالبًا ما تعرض صفحات المقارنة بين النماذج، مثل مقارنةYOLOv5 مقابل مقارنة RT-DETR سرعات الاستدلال التي تم تحقيقها باستخدام تحسين TensorRT . يوفر Ultralytics أيضًا أدلة للتكامل مع منصات NVIDIA مثل دليل DeepStream على NVIDIA Jetson.

التطبيقات الواقعية

يُستخدَم TensorRT على نطاق واسع حيث يكون الاستدلال السريع والفعال على أجهزة NVIDIA أمرًا بالغ الأهمية:

  1. السيارات ذاتية القيادة: تعتمد السيارات ذاتية القيادة على معالجة كميات هائلة من بيانات المستشعرات في الوقت الفعلي. يعمل TensorRT على تسريع نماذج اكتشاف الأجسام وتجزئتها وتخطيط المسار، مما يتيح اتخاذ القرارات السريعة الضرورية للسلامة. هذا هو أحد المكونات الأساسية للذكاء الاصطناعي في حلول السيارات.
  2. تحليلات الفيديو والمدن الذكية: تتطلب معالجة العديد من تدفقات الفيديو عالية الدقة لمهام مثل مراقبة حركة المرور أو تحليل الحشود أو المراقبة الأمنية قوة حاسوبية هائلة. يعمل TensorRT على تحسين نماذج مثل Ultralytics YOLOv8 للتعامل مع أعباء العمل الصعبة هذه بكفاءة على الخوادم أو الأجهزة الطرفية، مما يدعم حلول الذكاء الاصطناعي للمدن الذكية.

TensorRT مقابل المصطلحات المشابهة

  • ONNX (تبادل الشبكات العصبية المفتوحة): ONNX هو تنسيق مفتوح لتمثيل نماذج التعلم العميق. في حين يمكن ل TensorRT استيراد النماذج من تنسيق ONNX إلا أن ONNX نفسه لا يعتمد على الأجهزة، في حين أن TensorRT هو على وجه التحديد مُحسِّن ووقت تشغيل لوحدات معالجة الرسومات NVIDIA . يمكن تصدير نماذج Ultralytics إلى ONNX.
  • OpenVINO: على غرار TensorRT OpenVINO هو مجموعة أدوات لتحسين الاستدلال، ولكن تم تطويره بواسطة Intel ويستهدف بشكل أساسي أجهزة Intel (وحدات المعالجة المركزية ووحدات معالجة iGPU ووحدات معالجة البيانات الافتراضية الخاصة). تعرف على المزيد حول تكاملUltralytics OpenVINO .
  • PyTorch / TensorFlow: هذه أطر عمل للتعلم العميق تُستخدم بشكل أساسي لتدريب النماذج. يعمل TensorRT على تحسين النماذج بعد تدريبها باستخدام هذه الأطر، وإعدادها لنشر النماذج بكفاءة.
قراءة الكل