Оптимизируй модели глубокого обучения с помощью TensorRT для более быстрых и эффективных выводов на NVIDIA GPU. Добейся производительности в реальном времени при работе с YOLO и приложениями искусственного интеллекта.
TensorRT - это высокопроизводительный оптимизатор выводов Deep Learning (DL) и библиотека времени выполнения, разработанная NVIDIA. Она создана специально для того, чтобы максимизировать пропускную способность вычислений и минимизировать задержку вычислений для приложений глубокого обучения, работающих на графических процессорахNVIDIA . TensorRT берет обученные модели нейронных сетей из различных фреймворков и применяет множество оптимизаций, чтобы создать высокооптимизированный движок времени выполнения для развертывания. Этот процесс очень важен для эффективного развертывания моделей в производственных средах, особенно там, где скорость и отзывчивость имеют решающее значение.
TensorRT добивается значительного повышения производительности за счет нескольких сложных техник:
Рабочий процесс обычно включает в себя взятие обученной модели (например, из PyTorch или TensorFlowчасто через промежуточный формат, например ONNX) и подает ее оптимизатору TensorRT . TensorRT разбирает модель, выполняет оптимизацию графа и оптимизацию для конкретной цели на основе заданной точности и целевого GPU и, наконец, генерирует оптимизированный план вычислений, известный как движок TensorRT . Затем этот файл движка можно развернуть для быстрого проведения вычислений.
TensorRT очень актуален на этапе развертывания модели в жизненном цикле машинного обучения. Его способность значительно ускорять вывод делает его незаменимым для приложений, требующих вывода в реальном времени, например, для обнаружения объектов с помощью таких моделей, как Ultralytics YOLO, сегментация изображений и обработка естественного языка. Он является ключевым компонентом в программном стеке NVIDIA , наряду с такими инструментами, как CUDAи позволяет разработчикам использовать весь потенциал аппаратного обеспечения NVIDIA , от мощных GPU для центров обработки данных до энергоэффективных модулей NVIDIA Jetson для Edge AI. Ultralytics обеспечивает бесшовную интеграцию, позволяя пользователям экспортировать модели YOLO в формат TensorRT для оптимизированного развертывания, который часто используется с такими платформами, как Triton Inference Server.
TensorRT широко используется в различных отраслях, где требуются быстрые и эффективные выводы ИИ:
Хотя TensorRT фокусируется на оптимизации выводов специально для графических процессоров NVIDIA , в экосистеме существуют и другие инструменты:
Ключевым отличием TensorRT является его глубокая интеграция с оборудованием NVIDIA и агрессивные стратегии оптимизации для GPU, которые часто дают самые высокие результаты в бенчмарках (см. MLPerf Benchmarks) на платформах NVIDIA по сравнению с более универсальными режимами выполнения. Управление моделями и развертыванием может быть упрощено с помощью таких платформ, как Ultralytics HUB.