용어집

TensorRT

NVIDIA GPU에서 더 빠르고 효율적인 추론을 위해 TensorRT 으로 딥 러닝 모델을 최적화하세요. YOLO 및 AI 애플리케이션으로 실시간 성능을 달성하세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

TensorRT 다음에서 개발한 고성능 딥 러닝(DL) 추론 최적화 및 런타임 라이브러리입니다. NVIDIA. NVIDIA GPU에서 실행되는 딥 러닝 애플리케이션의 추론 처리량을 극대화하고 추론 지연 시간을 최소화하도록 특별히 설계되었습니다. TensorRT 다양한 프레임워크에서 훈련된 신경망 모델을 가져와 수많은 최적화를 적용하여 배포를 위한 고도로 최적화된 런타임 엔진을 생성합니다. 이 프로세스는 특히 속도와 응답성이 중요한 프로덕션 환경에서 모델을 효율적으로 배포하는 데 매우 중요합니다.

주요 기능 및 최적화

TensorRT 몇 가지 정교한 기술을 통해 상당한 성능 향상을 달성합니다:

  • 정밀 보정: 정확도 손실을 최소화하면서 모델 정밀도를 FP32에서 FP16 또는 INT8(혼합 정밀도 또는 모델 정량화) 과 같은 낮은 정밀도로 낮 춰 계산 속도를 높이고 메모리 사용량을 줄입니다.
  • 레이어 및 Tensor 퓨전: 여러 레이어 또는 연산을 단일 커널로 결합(레이어 퓨전)하여 메모리 대역폭 사용량과 커널 실행 오버헤드를 줄입니다.
  • 커널 자동 튜닝: 대상에 가장 적합한 사전 구현된 알고리즘(커널)을 선택합니다. NVIDIA GPU 아키텍처에 가장 적합한 알고리즘(커널)을 선택하여 특정 하드웨어에 최적화된 성능을 보장합니다.
  • 동적 Tensor 메모리: 수명이 겹치지 않는 텐서용으로 할당된 메모리를 재사용하여 메모리 사용량을 최소화합니다.
  • 다중 스트림 실행: 여러 입력 스트림을 병렬 처리할 수 있습니다.

TensorRT 작동 방식

워크플로에는 일반적으로 훈련된 모델(예를 들어 PyTorch 또는 TensorFlow와 같은 중간 형식을 통해 ONNX와 같은 중간 형식을 통해)로 변환하여 TensorRT 옵티마이저에 공급합니다. TensorRT 모델을 구문 분석하고, 지정된 정밀도와 대상 GPU 따라 그래프 최적화 및 대상별 최적화를 수행한 다음, 최종적으로 최적화된 추론 계획, 즉 TensorRT 엔진을 생성합니다. 그런 다음 이 엔진 파일을 배포하여 빠른 추론을 수행할 수 있습니다.

AI와 ML의 관련성

TensorRT 머신 러닝 라이프사이클의 모델 배포 단계와 매우 관련이 깊습니다. 추론을 크게 가속화하는 기능 덕분에 다음과 같은 모델을 사용한 객체 감지와 같이 실시간 추론이 필요한 애플리케이션에 없어서는 안 될 필수 요소입니다. Ultralytics YOLO, 이미지 세분화, 자연어 처리와 같은 모델을 사용한 객체 감지와 같은 실시간 추론이 필요한 애플리케이션에 필수적입니다. 다음과 같은 도구와 함께 NVIDIA 소프트웨어 스택의 핵심 구성 요소입니다. CUDA와 같은 도구와 함께 개발자가 강력한 데이터센터 GPU부터 에너지 효율적인 엣지 AI용 NVIDIA Jetson 모듈에 이르기까지 NVIDIA 하드웨어의 잠재력을 최대한 활용할 수 있도록 지원하는 소프트웨어 스택의 구성 요소입니다. Ultralytics 원활한 통합을 제공하여 사용자가 YOLO 모델을 TensorRT 형식으로 내보내 최적화된 배포를 할 수 있도록 지원하며, 종종 Triton 추론 서버와 같은 플랫폼에서 사용됩니다.

실제 애플리케이션

TensorRT 빠르고 효율적인 AI 추론이 필요한 다양한 산업 분야에서 널리 사용되고 있습니다:

  1. 자율주행 차량: 자율주행차(차량용 AI)에서 TensorRT 임베디드 NVIDIA 드라이브 플랫폼에서 실행되는 인식 모델(예: 물체 감지 및 차선 분할)을 최적화하여 안전에 중요한 실시간 의사 결정을 내릴 수 있도록 지원합니다. 이러한 시스템에 배포하기 위해 TensorRT 사용하여 RTDETR과 같은 모델을 최적화할 수 있습니다(RTDETRv2와 YOLOv5 비교).
  2. 의료 이미지 분석: 병원과 연구 기관에서는 종양 탐지 또는 이상 징후 식별(의료 분야의 AI)과 같은 작업을 위해 의료 스캔(CT, MRI)을 분석하는 AI 모델의 추론을 가속화하여 더 빠른 진단을 가능하게 하고 임상 워크플로우를 지원합니다. 이는 대규모 컴퓨터 비전(CV) 시스템의 일부인 경우가 많습니다.

TensorRT 관련 기술 비교

TensorRT 특히 NVIDIA GPU를 위한 추론 최적화에 초점을 맞추고 있지만, 에코시스템에는 다른 도구도 존재합니다:

  • 딥 러닝 프레임워크(PyTorch, TensorFlow): 주로 모델 훈련에 사용되지만 기본적인 추론 기능도 제공합니다. TensorRT 이러한 프레임워크에서 학습된 모델을 배포에 맞게 최적화합니다.
  • ONNX 런타임: 크로스 플랫폼 추론 엔진으로, NVIDIA GPU(종종 실행 공급자로 TensorRT 사용), CPU 등을 포함한 여러 하드웨어 가속기를 지원합니다. 더 광범위한 하드웨어 호환성을 제공하지만 NVIDIA 하드웨어에서 TensorRT 동일한 수준의 최적화를 직접 달성하지는 못할 수 있습니다.
  • Intel OpenVINO: TensorRT 유사하지만 Intel 하드웨어(CPU, iGPU, VPU)에 최적화되어 있습니다. Ultralytics 모델을 OpenVINO 형식으로 내보낼 수도 있습니다.

TensorRT 주요 차별화 요소는 NVIDIA 하드웨어와의 긴밀한 통합과 GPU에 맞춘 공격적인 최적화 전략으로, 범용 런타임에 비해 NVIDIA 플랫폼에서 가장 높은 성능 벤치마크( MLPerf 벤치마크 참조)를 달성하는 경우가 많다는 점입니다. 모델 및 배포 관리는 Ultralytics HUB와 같은 플랫폼을 사용하여 간소화할 수 있습니다.

모두 보기