Glossário

Latência de inferência

Optimiza o desempenho da IA com baixa latência de inferência. Aprende os principais factores, aplicações do mundo real e técnicas para melhorar as respostas em tempo real.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A latência de inferência é uma métrica crítica na inteligência artificial e na aprendizagem automática (ML), especialmente quando se implementam modelos para aplicações reais. Refere-se ao tempo de atraso entre o momento em que uma entrada (como uma imagem ou consulta de texto) é apresentada a um modelo treinado e o momento em que o modelo produz uma previsão ou saída. Essencialmente, mede a rapidez com que um modelo pode processar novos dados e fornecer um resultado. Minimizar a latência da inferência é muitas vezes crucial para aplicações que requerem respostas atempadas, afectando diretamente a usabilidade e a eficácia dos sistemas de IA.

Relevância da latência de inferência

A baixa latência de inferência é vital para uma experiência positiva do utilizador e para a viabilidade de muitas aplicações de IA. Em sistemas interactivos, como chatbots ou serviços de tradução em tempo real, uma latência elevada leva a atrasos visíveis, frustrando os utilizadores. Para aplicações críticas como veículos autónomos ou ferramentas de diagnóstico médico, mesmo pequenos atrasos podem ter consequências significativas, afectando a segurança e a tomada de decisões. Por conseguinte, compreender, medir e otimizar a latência da inferência é um aspeto fundamental da implementação eficaz de modelos de IA. É uma métrica distinta da taxa de transferência, que mede o número de inferências processadas por unidade de tempo; uma aplicação pode exigir baixa latência (resposta individual rápida) mesmo que a taxa de transferência geral não seja extremamente alta. Podes saber mais sobre como otimizar estes diferentes aspectos em guias como o do OpenVINO Latency vs Throughput Modes.

Aplicações no mundo real

A importância de uma baixa latência de inferência é evidente em vários domínios:

  • Veículos autónomos: Os carros autónomos dependem da rápida deteção de objectos e da compreensão da cena para navegarem em segurança. A baixa latência garante que o veículo possa reagir instantaneamente a pedestres, outros carros ou obstáculos inesperados, o que é fundamental para a segurança. Ultralytics YOLO são frequentemente otimizados para essas tarefas de inferência em tempo real.
  • IA interactiva: aplicações como os assistentes virtuais(Amazon Alexa, Google Assistant) ou os serviços de tradução têm de processar a entrada de voz ou de texto e responder de forma conversacional. Uma latência elevada quebra o fluxo de interação e degrada a experiência do utilizador.
  • Automação industrial: No fabrico, os sistemas de visão por computador realizam verificações de controlo de qualidade nas linhas de montagem. A baixa latência permite a rápida identificação e remoção de produtos defeituosos sem diminuir a produção. Isso geralmente envolve a implantação de modelos em dispositivos de borda.
  • Cuidados de saúde: A IA que analisa imagens médicas (como tomografias ou raios X) tem de fornecer resultados rapidamente para ajudar na precisão do diagnóstico e no planeamento atempado do tratamento. Vê como YOLO é utilizado para a deteção de tumores.
  • Sistemas de segurança: Os sistemas de vigilância em tempo real utilizam a IA para a deteção de ameaças (por exemplo, identificar intrusos ou objectos abandonados). A baixa latência permite alertas e respostas imediatas, como num sistema de alarme de segurança.

Factores que afectam a latência da inferência

Vários factores influenciam a rapidez com que um modelo pode realizar a inferência:

  • Complexidade do modelo: As redes neurais (NN) maiores e mais complexas requerem geralmente mais computação, o que leva a uma maior latência. A escolha da arquitetura desempenha um papel importante. Podes comparar diferentes modelos, como YOLOv10 vs YOLO11, para veres as compensações.
  • Hardware: O poder de processamento do hardware usado para inferência é crucial. Hardware especializado como GPUs, TPUs ou aceleradores de IA dedicadosGoogle Edge TPUs, NVIDIA Jetson) podem reduzir significativamente a latência em comparação com CPUs padrão.
  • Otimização de software: Usa mecanismos de inferência otimizados como NVIDIA TensorRT ou o OpenVINO daIntel pode melhorar drasticamente o desempenho, otimizando o gráfico do modelo e aproveitando as instruções específicas do hardware. Frameworks como PyTorch também oferecem ferramentas para otimização. Exportar modelos para formatos como ONNX facilita a implementação em diferentes motores.
  • Tamanho do lote: O processamento de várias entradas em conjunto(batching) pode melhorar o rendimento geral, mas muitas vezes aumenta a latência das inferências individuais. As aplicações em tempo real normalmente usam um tamanho de lote de 1.
  • Transferência de dados: O tempo necessário para mover os dados de entrada para o modelo e recuperar a saída pode aumentar a latência geral, especialmente em cenários de computação distribuída ou em nuvem.
  • Quantização e poda: Técnicas como a quantização do modelo (redução da precisão numérica) e a poda do modelo (remoção de parâmetros redundantes do modelo) podem reduzir o tamanho do modelo e os requisitos computacionais, diminuindo a latência. Lê mais sobre o que é a otimização de modelos neste guia rápido.

Gerir a latência da inferência é um ato de equilíbrio crítico entre a precisão do modelo, o custo computacional e o tempo de resposta, essencial para a implementação de soluções de IA eficazes geridas através de plataformas como o Ultralytics HUB. Compreender as etapas de um projeto de visão computacional inclui o planeamento destes requisitos de desempenho durante a implementação do modelo.

Lê tudo