Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

TensorRT

Узнайте, как TensorRT модели глубокого обучения для NVIDIA . Научитесь экспортировать Ultralytics в TensorRT быстрого вывода с низкой задержкой уже сегодня.

TensorRT высокопроизводительный набор средств разработки программного обеспечения (SDK) для глубокого обучения, разработанный компанией NVIDIA. Он предназначен для оптимизации моделей нейронных сетей для развертывания, обеспечивая низкую задержку вывода и высокую пропускную способность для приложений глубокого обучения. Действуя как компилятор оптимизации, TensorRT обученные сети из популярных фреймворков , таких как PyTorch и TensorFlow перестраивает их для эффективного выполнения награфических процессорах NVIDIA . Эта возможность имеет решающее значение для запуска сложных моделей искусственного интеллекта в производственных средах, где скорость и эффективность имеют первостепенное значение.

Как TensorRT модели

Основная функция TensorRT в преобразовании обученной нейронной сети в оптимизированный «движок», специально настроенный для целевого оборудования. Это достигается с помощью нескольких передовых технологий:

  • Слияние слоев: оптимизатор объединяет несколько слоев нейронной сети в одно ядро, сокращая накладные расходы на доступ к памяти и повышая скорость выполнения.
  • Точная калибровка: TensorRT режимы пониженной точности, такие как смешанная точность (FP16) и целочисленное квантование (INT8). За счет уменьшения количества битов, используемых для представления чисел, — часто с минимальной потерей точности — разработчики могут значительно ускорить математические операции и сократить использование памяти. Это одна из форм квантования модели.
  • Автоматическая настройка ядра: программное обеспечение автоматически выбирает оптимальные уровни данных и алгоритмы для конкретной используемой GPU , обеспечивая максимальное использование возможностей аппаратного обеспечения по параллельной обработке с помощью CUDA.

Применение в реальном мире

Благодаря своей способности обрабатывать огромные объемы данных с минимальной задержкой, TensorRT широко TensorRT в отраслях, основанных на компьютерном зрении и сложных задачах искусственного интеллекта, где время имеет решающее значение.

  1. Автономные системы: в сфере искусственного интеллекта в автомобилестроении самоуправляемые автомобили должны обрабатывать видеопоток с нескольких камер, чтобы мгновенно detect , знаки и препятствия. С TensorRT модели восприятия, такие как сети обнаружения объектов, могут анализировать кадры за миллисекунды, позволяя системе управления автомобилем принимать критически важные для безопасности решения без задержек.
  2. Промышленная автоматизация: современные заводы используют ИИ в производстве для автоматизированного оптического контроля. Высокоскоростные камеры снимают изображения продуктов на сборочных линиях, а модели, TensorRT, выявляют дефекты или аномалии в режиме реального времени. Это гарантирует, что контроль качества не отстает от высокоскоростных производственных сред, часто развертываемых на периферийных устройствах ИИ, таких как платформа NVIDIA , непосредственно на производстве.

Использование TensorRT Ultralytics YOLO

Интеграция TensorRT в ваш рабочий процесс - это простое решение с помощью современных инструментов искусственного интеллекта. Сайт ultralytics Пакет предоставляет удобный способ преобразования стандартных PyTorch в TensorRT . Это позволяет пользователям использовать современную архитектуру Ultralytics YOLO26 с аппаратным ускорением NVIDIA . Для команд, которые хотят управлять своими наборами данных и конвейерами обучения перед экспортом, Платформа Ultralytics предлагает комплексную среду для подготовки моделей к такому высокопроизводительному развертыванию.

Следующий пример демонстрирует, как экспортировать модель YOLO26 в файл TensorRT (.engine) и использовать его для выводы в режиме реального времени:

from ultralytics import YOLO

# Load the latest stable YOLO26 model (nano size)
model = YOLO("yolo26n.pt")

# Export the model to TensorRT format (creates 'yolo26n.engine')
# This step optimizes the computational graph for your specific GPU
model.export(format="engine")

# Load the optimized TensorRT engine for high-speed inference
trt_model = YOLO("yolo26n.engine")

# Run inference on an image source
results = trt_model("https://ultralytics.com/images/bus.jpg")

TensorRT ONNX фреймворков для обучения

Важно отличать TensorRT других терминов, часто встречающихся в сфере развертывания моделей:

  • Vs.TensorFlow: Фреймворки, такие как PyTorch , в первую очередь PyTorch для обучения моделей и исследований, предлагая гибкость и простоту отладки. TensorRT инференсный движок, предназначенный исключительно для максимально быстрого выполнения обученных моделей. Он не используется для обучения.
  • Vs. ONNX: ONNX (Open Neural Network Exchange) выступает в качестве промежуточного моста между фреймворками. В то время как ONNX совместимость (например, перенос модели из PyTorch другую платформу), TensorRT на оптимизации под конкретное оборудование. Часто модель ONNX конвертируется в ONNX , а затем анализируется TensorRT генерации конечного движка.

Для разработчиков, стремящихся максимально повысить производительность своих ИИ-агентов или систем технического зрения, понимание перехода от среды обучения к оптимизированной среде выполнения, такой как TensorRT ключевым шагом в профессиональном MLOps.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас