NVIDIA GPU에서 더 빠르고 효율적인 추론을 위해 TensorRT 으로 딥 러닝 모델을 최적화하세요. YOLO 및 AI 애플리케이션으로 실시간 성능을 달성하세요.
TensorRT 다음에서 개발한 고성능 딥 러닝(DL) 추론 최적화 및 런타임 라이브러리입니다. NVIDIA. NVIDIA GPU에서 실행되는 딥 러닝 애플리케이션의 추론 처리량을 극대화하고 추론 지연 시간을 최소화하도록 특별히 설계되었습니다. TensorRT 다양한 프레임워크에서 훈련된 신경망 모델을 가져와 수많은 최적화를 적용하여 배포를 위한 고도로 최적화된 런타임 엔진을 생성합니다. 이 프로세스는 특히 속도와 응답성이 중요한 프로덕션 환경에서 모델을 효율적으로 배포하는 데 매우 중요합니다.
TensorRT 몇 가지 정교한 기술을 통해 상당한 성능 향상을 달성합니다:
워크플로에는 일반적으로 훈련된 모델(예를 들어 PyTorch 또는 TensorFlow와 같은 중간 형식을 통해 ONNX와 같은 중간 형식을 통해)로 변환하여 TensorRT 옵티마이저에 공급합니다. TensorRT 모델을 구문 분석하고, 지정된 정밀도와 대상 GPU 따라 그래프 최적화 및 대상별 최적화를 수행한 다음, 최종적으로 최적화된 추론 계획, 즉 TensorRT 엔진을 생성합니다. 그런 다음 이 엔진 파일을 배포하여 빠른 추론을 수행할 수 있습니다.
TensorRT 머신 러닝 라이프사이클의 모델 배포 단계와 매우 관련이 깊습니다. 추론을 크게 가속화하는 기능 덕분에 다음과 같은 모델을 사용한 객체 감지와 같이 실시간 추론이 필요한 애플리케이션에 없어서는 안 될 필수 요소입니다. Ultralytics YOLO, 이미지 세분화, 자연어 처리와 같은 모델을 사용한 객체 감지와 같은 실시간 추론이 필요한 애플리케이션에 필수적입니다. 다음과 같은 도구와 함께 NVIDIA 소프트웨어 스택의 핵심 구성 요소입니다. CUDA와 같은 도구와 함께 개발자가 강력한 데이터센터 GPU부터 에너지 효율적인 엣지 AI용 NVIDIA Jetson 모듈에 이르기까지 NVIDIA 하드웨어의 잠재력을 최대한 활용할 수 있도록 지원하는 소프트웨어 스택의 구성 요소입니다. Ultralytics 원활한 통합을 제공하여 사용자가 YOLO 모델을 TensorRT 형식으로 내보내 최적화된 배포를 할 수 있도록 지원하며, 종종 Triton 추론 서버와 같은 플랫폼에서 사용됩니다.
TensorRT 빠르고 효율적인 AI 추론이 필요한 다양한 산업 분야에서 널리 사용되고 있습니다:
TensorRT 특히 NVIDIA GPU를 위한 추론 최적화에 초점을 맞추고 있지만, 에코시스템에는 다른 도구도 존재합니다:
TensorRT 주요 차별화 요소는 NVIDIA 하드웨어와의 긴밀한 통합과 GPU에 맞춘 공격적인 최적화 전략으로, 범용 런타임에 비해 NVIDIA 플랫폼에서 가장 높은 성능 벤치마크( MLPerf 벤치마크 참조)를 달성하는 경우가 많다는 점입니다. 모델 및 배포 관리는 Ultralytics HUB와 같은 플랫폼을 사용하여 간소화할 수 있습니다.