Glossário

Latência de inferência

Optimiza o desempenho da IA com baixa latência de inferência. Aprende os principais factores, aplicações do mundo real e técnicas para melhorar as respostas em tempo real.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A latência de inferência é uma métrica crítica no domínio da inteligência artificial e da aprendizagem automática, em especial quando se utilizam modelos para aplicações reais. Refere-se ao tempo de atraso entre o momento em que uma entrada é apresentada a um modelo treinado e o momento em que o modelo produz uma previsão ou saída. Essencialmente, mede a rapidez com que um modelo pode tomar uma decisão ou gerar um resultado quando recebe novos dados. Minimizar a latência da inferência é muitas vezes crucial para aplicações em que as respostas atempadas são essenciais.

Relevância da latência de inferência

A latência da inferência é um indicador de desempenho fundamental para muitas aplicações de IA, afectando diretamente a experiência do utilizador e a viabilidade dos sistemas em tempo real. No caso das aplicações interactivas, uma latência elevada pode levar a uma sensação de lentidão e falta de resposta, degradando a satisfação do utilizador. Em sistemas críticos como os veículos autónomos ou os diagnósticos médicos, uma latência excessiva pode ter consequências graves, levando potencialmente a reacções tardias em situações críticas. Por isso, compreender e otimizar a latência da inferência é fundamental para implementar soluções de IA eficazes e fáceis de utilizar. Os factores que influenciam a latência da inferência incluem a complexidade do modelo, os recursos computacionais e as técnicas de otimização aplicadas durante a implementação do modelo.

Aplicações no mundo real

  • Condução autónoma: Nos carros de condução autónoma, a baixa latência de inferência é crucial para a deteção de objectos em tempo real e para a tomada de decisões. O sistema de visão computacional do veículo, muitas vezes alimentado por modelos como Ultralytics YOLO , deve processar rapidamente os dados do sensor para identificar pedestres, outros veículos e obstáculos na estrada. Os atrasos neste processo, devido à elevada latência de inferência, podem comprometer a segurança e os tempos de reação. A otimização de modelos para uma implementação de baixa latência em plataformas como NVIDIA Jetson é vital neste domínio.
  • Sistemas de segurança em tempo real: Os sistemas de segurança que utilizam a deteção de objectos para deteção de intrusão requerem uma latência de inferência mínima para identificar prontamente as ameaças e acionar alertas. Por exemplo, num sistema de alarme de segurança inteligente, os atrasos no reconhecimento de indivíduos não autorizados podem reduzir a eficácia do sistema. Modelos eficientes e hardware como TensorRT são frequentemente utilizados para obter a baixa latência necessária para uma resposta imediata.

Factores que afectam a latência da inferência

Vários factores podem afetar a latência da inferência, incluindo:

  • Complexidade do modelo: Modelos mais complexos com um maior número de parâmetros e camadas geralmente requerem mais computação, levando a uma maior latência. Modelos como o YOLOv10 são concebidos para desempenho em tempo real, equilibrando precisão e velocidade.
  • Hardware: O poder de processamento do hardware usado para inferência afeta significativamente a latência. As GPUs são frequentemente preferidas em relação às CPUs para inferência de aprendizagem profunda devido às suas capacidades de processamento paralelo, que podem reduzir drasticamente a latência. Os dispositivos de borda com aceleradores especializados, como o Google Edge TPU, são projetados para inferência de baixa latência em cenários de computação de borda.
  • Tamanho do lote: Embora tamanhos de lote maiores possam aumentar a taxa de transferência, eles também podem aumentar a latência, pois o modelo processa mais dados antes de produzir uma saída para uma única entrada. O ajuste cuidadoso do tamanho do lote é frequentemente necessário para equilibrar a taxa de transferência e a latência.
  • Otimização de software: Optimizações como a quantização de modelos, a poda(model pruning) e a utilização de motores de inferência eficientes como OpenVINO ou TensorRT podem reduzir substancialmente a latência da inferência sem sacrificar significativamente a precisão.

Reduzir a latência da inferência

A redução da latência da inferência envolve frequentemente uma combinação de otimização de modelos e estratégias de implementação eficientes. Técnicas como a quantização de modelos podem reduzir o tamanho do modelo e as demandas computacionais, levando a uma inferência mais rápida. As práticas de implantação de modelos que aproveitam o hardware otimizado, como GPUs ou aceleradores especializados, e estruturas de software eficientes também são cruciais. Além disso, para aplicações em que é necessária uma latência extremamente baixa, modelos mais simples e mais rápidos podem ser preferidos a modelos mais complexos, embora potencialmente mais precisos. Ultralytics O HUB fornece ferramentas e plataformas para treinar, otimizar e implementar modelos com o objetivo de obter uma baixa latência de inferência para aplicações do mundo real.

Em resumo, a latência da inferência é uma consideração vital no desenvolvimento e implementação de sistemas de IA, especialmente aqueles que exigem respostas em tempo real. Compreender os factores que influenciam a latência e empregar técnicas de otimização são essenciais para criar aplicações de IA eficientes e eficazes.

Lê tudo