Optimiza os modelos de aprendizagem profunda com TensorRT para uma inferência mais rápida e eficiente nas GPUs NVIDIA . Obtém desempenho em tempo real com YOLO e aplicações de IA.
TensorRT é um optimizador de inferência de Aprendizagem Profunda (DL) de alto desempenho e uma biblioteca de tempo de execução desenvolvida pela NVIDIA. Ele foi projetado especificamente para maximizar a taxa de transferência de inferência e minimizar a latência de inferência para aplicativos de deep learning em execução nas GPUsNVIDIA . TensorRT pega modelos de rede neural treinados de várias estruturas e aplica várias otimizações para gerar um mecanismo de tempo de execução altamente otimizado para implantação. Esse processo é crucial para implantar modelos de forma eficiente em ambientes de produção, especialmente onde a velocidade e a capacidade de resposta são críticas.
TensorRT consegue melhorias significativas de desempenho através de várias técnicas sofisticadas:
O fluxo de trabalho envolve normalmente a obtenção de um modelo treinado (por exemplo, do PyTorch ou TensorFlowfrequentemente através de um formato intermédio como ONNX) e alimenta-o no optimizador TensorRT . TensorRT analisa o modelo, executa optimizações gráficas e optimizações específicas do alvo com base na precisão especificada e na GPU alvo e, finalmente, gera um plano de inferência optimizado, conhecido como um motor TensorRT . Este ficheiro de motor pode então ser implementado para uma inferência rápida.
TensorRT é altamente relevante para a fase de implementação do modelo do ciclo de vida da aprendizagem automática. A sua capacidade de acelerar significativamente a inferência torna-o indispensável para aplicações que requerem inferência em tempo real, como a deteção de objectos com modelos como o Ultralytics YOLOsegmentação de imagens e processamento de linguagem natural. É um componente-chave na pilha de software NVIDIA , juntamente com ferramentas como CUDApermitindo aos programadores tirar partido de todo o potencial do hardware NVIDIA , desde as potentes GPUs de centros de dados até aos módulos NVIDIA Jetson energeticamente eficientes para IA Edge. Ultralytics fornece uma integração perfeita, permitindo aos utilizadores exportar modelos YOLO para o formato TensorRT para uma implementação optimizada, frequentemente utilizada com plataformas como o Triton Inference Server.
TensorRT é amplamente utilizado em vários sectores onde é necessária uma inferência de IA rápida e eficiente:
Embora TensorRT se concentre na otimização da inferência especificamente para GPUs NVIDIA , existem outras ferramentas no ecossistema:
O principal diferenciador do TensorRT é a sua profunda integração com o hardware NVIDIA e as suas estratégias de otimização agressivas adaptadas às GPUs, produzindo frequentemente os benchmarks de desempenho mais elevados (ver Benchmarks MLPerf) em plataformas NVIDIA , em comparação com tempos de execução mais gerais. A gestão de modelos e implementações pode ser simplificada utilizando plataformas como o Ultralytics HUB.