Yolo 비전 선전
선전
지금 참여하기
용어집

TensorRT

TensorRT NVIDIA 딥 러닝 모델을 어떻게 TensorRT 알아보세요. 저지연, 고속 추론을 TensorRT Ultralytics TensorRT 내보내는 방법을 지금 바로 배워보세요.

TensorRT NVIDIA 개발한 고성능 딥러닝 추론 소프트웨어 개발 키트(SDK)TensorRT . 신경망 모델의 배포 최적화를 위해 설계되어 딥러닝 애플리케이션에 낮은 추론 지연 시간과 높은 처리량을 TensorRT . 최적화 컴파일러 역할을 수행함으로써 TensorRT , TensorFlow, CUDA TensorFlow, TensorFlow-X, PyTorch-X, TensorFlow-X, TensorFlow-X, TensorFlow-X, TensorFlow-X, TensorFlow-X, TensorFlow-X, TensorFlow-X, TensorFlow-X, TensorFlow-X, TensorFlow-X, TensorFlow-X, TensorFlow-X, TensorRT , TensorFlow-X, TensorFlow-X, Tensor PyTorch 과 TensorFlow 프레임워크에서 훈련된 네트워크를 가져와 NVIDIA GPU에서 효율적으로 실행되도록 재구성합니다. 이 기능은 속도와 효율성이 최우선인 생산 환경에서 복잡한 AI 모델을 실행하는 데 매우 중요합니다.

TensorRT 모델을 TensorRT 방법

TensorRT 핵심 기능은 훈련된 신경망을 대상 하드웨어에 특화된 최적화된 "엔진"으로 변환하는 TensorRT . 이를 위해 다음과 같은 여러 고급 기술을 활용합니다:

  • 레이어 퓨전: 최적화기는 신경망의 여러 레이어를 단일 커널로 결합하여 메모리 접근 오버헤드를 줄이고 실행 속도를 향상시킵니다.
  • 정밀도 보정: TensorRT 혼합 정밀도 (FP16) 및 정수 양자화(INT8)와 같은 정밀도 감소 모드를 TensorRT . 숫자를 표현하는 데 사용되는 비트 수를 줄임으로써(대개 정확도 손실이 최소화됨) 개발자는 수학 연산을 크게 가속화하고 메모리 사용량을 줄일 수 있습니다. 이는 모델 양자화의 한 형태입니다.
  • 커널 자동 튜닝: 소프트웨어는 사용 중인 특정 GPU 최적화된 데이터 레이어와 알고리즘을 자동으로 선택하여 하드웨어의 병렬 처리 능력을 최대한 활용합니다. CUDA.

실제 애플리케이션

TensorRT 최소한의 지연으로 방대한 양의 데이터를 처리할 수 있는 능력 덕분에 컴퓨터 비전과 복잡한 AI 작업에 의존하는 산업 분야에서 시간이 매우 중요한 상황에서 널리 채택되고 TensorRT .

  1. 자율 시스템: 자동차 AI 분야에서 자율주행차는 detect , 표지판, 장애물을 즉시 detect 위해 여러 카메라의 영상 데이터를 처리해야 합니다. TensorRT 사용하면 객체 탐지 네트워크 같은 인지 모델이 프레임을 밀리초 단위로 분석할 수 있어 차량 제어 시스템이 지연 없이 안전에 중요한 결정을 내릴 수 있습니다.
  2. 산업 자동화: 현대식 공장은 제조 과정에서 인공지능을 활용해 자동화된 광학 검사를 수행합니다. 고속 카메라가 조립 라인 위 제품의 이미지를 포착하면, TensorRT 모델이 결함이나 이상을 실시간으로 식별합니다. 이를 통해 품질 관리가 고속 생산 환경에 발맞출 수 있으며, NVIDIA 플랫폼과 같은 에지 AI 장치를 공장 현장에 직접 배치하는 경우가 많습니다.

Ultralytics TensorRT YOLO TensorRT 사용하기

최신 AI 도구를 사용하면 워크플로에 TensorRT 간편하게 통합할 수 있습니다. 그리고 ultralytics 패키지는 표준 PyTorch TensorRT 변환하는 원활한 방법을 제공합니다. 이를 통해 사용자는 최첨단 아키텍처를 활용할 수 있습니다. Ultralytics YOLO26 NVIDIA 하드웨어 가속을 통해. 데이터셋과 훈련 파이프라인을 내보내기 전에 관리하려는 팀을 위해, 해당 Ultralytics 플랫폼 이러한 고성능 배포를 위한 모델을 준비할 수 있는 포괄적인 환경을 제공합니다.

다음 예제는 YOLO26 모델을 TensorRT 파일로 내보내는 방법을 보여줍니다..engine) 그리고 사용하기 위해 실시간 추론:

from ultralytics import YOLO

# Load the latest stable YOLO26 model (nano size)
model = YOLO("yolo26n.pt")

# Export the model to TensorRT format (creates 'yolo26n.engine')
# This step optimizes the computational graph for your specific GPU
model.export(format="engine")

# Load the optimized TensorRT engine for high-speed inference
trt_model = YOLO("yolo26n.engine")

# Run inference on an image source
results = trt_model("https://ultralytics.com/images/bus.jpg")

TensorRT . ONNX . 훈련 프레임워크

모델 배포 환경에서 흔히 접하는 다른 TensorRT 구분하는 것이 중요합니다:

  • TensorFlow 대비: PyTorch 같은 프레임워크는 주로 모델 훈련 및 연구를 위해 PyTorch 유연성과 디버깅 용이성을 제공합니다. TensorRT 훈련된 모델을 최대한 빠르게 실행하기 위해 독점적으로 설계된 추론 엔진입니다. 훈련에는 사용되지 않습니다.
  • Vs. ONNX: ONNX (Open Neural Network Exchange) 형식은 프레임워크 간 중개자 역할을 합니다. ONNX 상호 운용성(예: PyTorch 모델을 다른 PyTorch 이동)을 ONNX 반면, TensorRT 하드웨어별 최적화에 TensorRT . 일반적으로 모델은 ONNX 변환된 후 TensorRT 의해 파싱되어 최종 엔진이 TensorRT .

개발자가 AI 에이전트나 비전 시스템의 성능을 극대화하려면 훈련 프레임워크에서 TensorRT 같은 최적화된 런타임으로의 전환을 이해하는 TensorRT 전문적인 MLOps의 핵심 TensorRT .

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기