Glossário

Latência de inferência

Descobre porque é que a latência de inferência é importante na IA, os seus principais factores e como optimizá-la para um desempenho em tempo real em diversas aplicações.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A latência de inferência refere-se ao tempo que um modelo de aprendizagem automática ou de IA demora a processar uma entrada e a fornecer uma saída durante a inferência. Esta métrica é crítica em aplicações em que as respostas em tempo real ou quase real são essenciais, tais como veículos autónomos, diagnósticos de cuidados de saúde ou sistemas de caixa de retalho. A latência da inferência é frequentemente medida em milissegundos (ms) e tem um impacto direto na experiência do utilizador e na eficiência do sistema das aplicações baseadas em IA.

Porque é que a latência da inferência é importante

A latência de inferência é uma métrica de desempenho fundamental para avaliar a velocidade e a usabilidade de um modelo de IA. Uma latência mais baixa garante respostas mais rápidas, o que é crucial para aplicações que requerem tomadas de decisão em tempo real. Por exemplo, nos veículos autónomos, qualquer atraso no reconhecimento de peões ou sinais de trânsito pode ter graves implicações para a segurança. Do mesmo modo, nos cuidados de saúde, a análise rápida de imagens médicas pode salvar vidas em situações de emergência.

A otimização da latência de inferência não só aumenta a satisfação do utilizador como também reduz os custos computacionais, especialmente em ambientes com recursos limitados, como dispositivos de ponta ou plataformas móveis.

Factores que influenciam a latência da inferência

Vários factores contribuem para a latência da inferência, incluindo:

  • Complexidade do modelo: Os modelos maiores e mais complexos, como os que têm várias camadas ou parâmetros, normalmente demoram mais tempo a processar as entradas.
  • Desempenho do hardware: A escolha do hardware, como GPUs, TPUs ou CPUs, afeta significativamente a latência. Por exemplo, as GPUs são otimizadas para processamento paralelo, muitas vezes reduzindo a latência em tarefas de inferência.
  • Tamanho do lote: O processamento de várias entradas em simultâneo (batching) pode reduzir ou aumentar a latência, dependendo das capacidades da aplicação e do hardware. Saiba mais sobre a otimização do tamanho do lote.
  • Técnicas de otimização: Técnicas como a quantização do modelo e a poda podem reduzir significativamente a latência, simplificando o modelo ou reduzindo o seu tamanho.
  • Estrutura e ferramentas: O quadro de software utilizado para a inferência, como o PyTorch ou TensorRT, pode influenciar a latência através da otimização e da aceleração do hardware.

Otimizar a latência da inferência

Para reduzir a latência da inferência, os programadores utilizam frequentemente várias estratégias:

  • Otimização de modelos: Técnicas como poda, quantização ou destilação de conhecimento podem simplificar os modelos, tornando-os mais rápidos de executar. Saiba mais sobre a otimização de modelos.
  • Aceleração de hardware: Usa aceleradores dedicados como NVIDIA GPUs com TensorRT ou o kit de ferramentas Intel's OpenVINO pode melhorar drasticamente os tempos de inferência.
  • Implantação eficiente: Aproveitando formatos de implantação otimizados, como ONNX ou TensorFlow Lite garante que os modelos sejam mais adequados para plataformas específicas.
  • IA de borda: Executa a inferência em dispositivos de borda, como o Raspberry Pi com Coral Edge TPU, minimiza a latência introduzida pelo processamento baseado em nuvem.

Aplicações no mundo real

1. Veículos autónomos

A latência da inferência desempenha um papel fundamental nos automóveis autónomos. Por exemplo, os modelos implementados para a deteção de objectos em tempo real e para a tomada de decisões têm de processar rapidamente os feeds da câmara para reconhecer obstáculos, peões e sinais de trânsito. Ultralytics YOLO modelos, utilizados na IA para a condução autónoma, permitem uma deteção rápida, mantendo uma elevada precisão.

2. Automatização de caixas de retalho

Em ambientes de retalho, os sistemas de IA de visão utilizam a deteção de objectos para reconhecer produtos na caixa, eliminando a necessidade de códigos de barras. A inferência de baixa latência garante uma experiência perfeita para o cliente. Descobre como a IA no retalho melhora a eficiência operacional através de uma deteção de objectos rápida e precisa.

3. Diagnóstico no sector da saúde

As aplicações de imagiologia médica dependem de uma baixa latência de inferência para diagnósticos rápidos. Por exemplo, os modelos de IA que analisam tomografias computadorizadas em busca de anomalias devem fornecer resultados em tempo real para ajudar os médicos a tomar decisões rápidas. Explora mais sobre a IA nos cuidados de saúde.

Conceitos relacionados

Enquanto a latência de inferência se centra no tempo de resposta durante a inferência, é distinta de termos relacionados, tais como:

  • Inferência em tempo real: Refere-se a tarefas de inferência que exigem respostas instantâneas, muitas vezes com restrições estritas de latência. Saiba mais sobre inferência em tempo real.
  • Precisão: Ao contrário da latência, a precisão avalia a correção das previsões do modelo. Explora a precisão para compreender o seu papel no desempenho do modelo de IA.
  • Rendimento: Mede o número de inferências que um modelo pode realizar por segundo e é frequentemente otimizado juntamente com a latência. Para aplicativos que priorizam a velocidade, aprende como equilibrar latência versus taxa de transferência.

Conclusão

A latência de inferência é uma métrica crítica na implementação de modelos de IA, particularmente para aplicações que exigem desempenho em tempo real ou de baixa latência. Ao compreenderem os factores que influenciam a latência e ao empregarem técnicas de otimização, os programadores podem garantir que os seus modelos fornecem resultados rápidos e fiáveis. O HUB Ultralytics fornece ferramentas para treinar, implementar e monitorizar modelos de forma eficiente, facilitando a obtenção de um desempenho ideal em diversos casos de utilização. Explora o HUB Ultralytics para simplificar os teus fluxos de trabalho de IA.

Lê tudo