용어집

TensorRT

NVIDIA GPU에서 더 빠르고 효율적인 추론을 위해 TensorRT 으로 딥 러닝 모델을 최적화하세요. YOLO 및 AI 애플리케이션으로 실시간 성능을 달성하세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

TensorRT 다음에서 개발한 고성능 딥 러닝 추론 최적화 도구 및 런타임 라이브러리입니다. NVIDIA. 다양한 최적화 기술을 적용하여 NVIDIA GPU(그래픽 처리 장치) 에서 딥 러닝 모델을 가속화합니다. TensorRT 주요 목표는 프로덕션 환경에 배포된 모델에 대해 가능한 한 가장 낮은 추론 지연 시간과 가장 높은 처리량을 달성하는 것이며, 이는 실시간 추론 애플리케이션에 매우 중요합니다.

TensorRT 작동 방식

TensorRT 종종 다음과 같은 프레임워크에서 내보낸 훈련된 신경망을 사용합니다. PyTorch 또는 TensorFlow와 같은 프레임워크에서 학습된 신경망을 가져와서 대상 NVIDIA GPU 맞게 최적화합니다. 주요 최적화 단계는 다음과 같습니다:

  • 그래프 최적화: 레이어를 융합하고 중복 작업을 제거하여 보다 효율적인 계산 그래프를 생성합니다.
  • 정밀 보정: 정확도에 미치는 영향을 최소화하면서 모델 가중치의 수치 정밀도를 낮추면(예: FP32에서 FP16 또는 INT8로) 계산 속도가 크게 빨라지고 메모리 사용량이 감소합니다.
  • 커널 자동 튜닝: 특정 모델 레이어 및 대상 GPU 대해 NVIDIA 라이브러리(cuDNN, cuBLAS)에서 미리 구현된 최상의 알고리즘(커널)을 선택합니다.
  • 동적 Tensor 메모리: 텐서용으로 할당된 메모리를 재사용하여 메모리 사용 공간을 최소화합니다.

이러한 최적화를 통해 특정 모델과 하드웨어에 맞게 조정된 매우 효율적인 런타임 추론 엔진이 탄생했습니다.

Ultralytics 애널리틱스와의 관련성

TensorRT Ultralytics YOLO 모델의 주요 배포 대상입니다. 사용자는 훈련된 Ultralytics YOLO 모델을 TensorRT 형식으로 내보내 NVIDIA Jetson과 같은 엣지 디바이스를 포함한 NVIDIA 하드웨어에서 상당한 속도 향상을 달성할 수 있습니다. 이를 통해 다양한 분야에서 고성능 애플리케이션을 구현할 수 있습니다. YOLOv5 RT-DETR 비교와 같은 모델 비교 페이지에서는 종종 TensorRT 최적화를 통해 달성한 추론 속도를 보여줍니다. 또한 Ultralytics NVIDIA Jetson의 DeepStream 가이드와 같이 NVIDIA 플랫폼과의 통합을 위한 가이드도 제공합니다.

실제 애플리케이션

TensorRT NVIDIA 하드웨어에서 빠르고 효율적인 추론이 중요한 곳에서 널리 사용됩니다:

  1. 자율주행 차량: 자율주행차는 방대한 양의 센서 데이터를 실시간으로 처리하는 데 의존합니다. TensorRT 물체 감지, 분할, 경로 계획을 위한 모델을 가속화하여 안전에 필수적인 빠른 의사결정을 내릴 수 있게 해줍니다. 이는 자동차 솔루션에서 AI의 핵심 구성 요소입니다.
  2. 비디오 분석과 스마트 시티: 교통 모니터링, 군중 분석, 보안 감시와 같은 작업을 위해 여러 개의 고해상도 비디오 스트림을 처리하려면 엄청난 연산 능력이 필요합니다. TensorRT 다음과 같은 모델을 최적화합니다. Ultralytics YOLOv8 과 같은 모델을 최적화하여 서버나 엣지 디바이스에서 이러한 까다로운 워크로드를 효율적으로 처리하여 스마트 시티를 위한 AI 솔루션을 지원합니다.

TensorRT 유사 용어

  • ONNX (개방형 신경망 교환): ONNX 딥 러닝 모델을 표현하기 위한 개방형 형식입니다. TensorRT ONNX 형식에서 모델을 가져올 수 있지만, ONNX 자체는 하드웨어에 구애받지 않는 반면, TensorRT 특히 NVIDIA GPU를 위한 최적화 및 런타임입니다. Ultralytics 모델을 ONNX 내보낼 수 있습니다.
  • OpenVINO: TensorRT 유사한 OpenVINO 추론 최적화 도구 키트이지만, Intel 개발했으며 주로 Intel 하드웨어(CPU, iGPU, VPU)를 대상으로 합니다. Ultralytics OpenVINO 통합에 대해 자세히 알아보세요.
  • TensorFlow: 주로 모델 학습에 사용되는 딥 러닝 프레임워크입니다. TensorRT 이러한 프레임워크를 사용하여 모델을 학습한 모델을 최적화하여 효율적인 모델 배포를 준비합니다.
모두 보기