Glossário

Latência de inferência

Optimiza o desempenho da IA com baixa latência de inferência. Aprende os principais factores, aplicações do mundo real e técnicas para melhorar as respostas em tempo real.

A latência de inferência é uma métrica crítica na inteligência artificial e na aprendizagem automática (ML), especialmente quando se implementam modelos para aplicações reais. Refere-se ao tempo de atraso entre o momento em que uma entrada (como uma imagem ou consulta de texto) é apresentada a um modelo treinado e o momento em que o modelo produz uma previsão ou saída. Essencialmente, mede a rapidez com que um modelo pode processar novos dados e fornecer um resultado. Minimizar a latência da inferência é muitas vezes crucial para aplicações que requerem respostas atempadas, afectando diretamente a usabilidade e a eficácia dos sistemas de IA.

Relevância da latência de inferência

A baixa latência de inferência é vital para uma experiência positiva do utilizador e para a viabilidade de muitas aplicações de IA. Em sistemas interactivos, como chatbots ou serviços de tradução em tempo real, uma latência elevada leva a atrasos visíveis, frustrando os utilizadores. Para aplicações críticas como veículos autónomos ou ferramentas de diagnóstico médico, mesmo pequenos atrasos podem ter consequências significativas, afectando a segurança e a tomada de decisões. Por conseguinte, compreender, medir e otimizar a latência da inferência é um aspeto fundamental da implementação eficaz de modelos de IA. É uma métrica distinta da taxa de transferência, que mede o número de inferências processadas por unidade de tempo; uma aplicação pode exigir baixa latência (resposta individual rápida) mesmo que a taxa de transferência geral não seja extremamente alta. Podes saber mais sobre como otimizar estes diferentes aspectos em guias como o do OpenVINO Latency vs Throughput Modes.

Aplicações no mundo real

A importância de uma baixa latência de inferência é evidente em vários domínios:

Veículos autónomos: Os carros autónomos dependem da rápida deteção de objectos e da compreensão da cena para navegarem em segurança. A baixa latência garante que o veículo possa reagir instantaneamente a pedestres, outros carros ou obstáculos inesperados, o que é fundamental para a segurança. Ultralytics YOLO são frequentemente otimizados para essas tarefas de inferência em tempo real.
IA interactiva: aplicações como os assistentes virtuais(Amazon Alexa, Google Assistant) ou os serviços de tradução têm de processar a entrada de voz ou de texto e responder de forma conversacional. Uma latência elevada quebra o fluxo de interação e degrada a experiência do utilizador.
Automação industrial: No fabrico, os sistemas de visão por computador realizam verificações de controlo de qualidade nas linhas de montagem. A baixa latência permite a rápida identificação e remoção de produtos defeituosos sem diminuir a produção. Isso geralmente envolve a implantação de modelos em dispositivos de borda.
Cuidados de saúde: A IA que analisa imagens médicas (como tomografias ou raios X) tem de fornecer resultados rapidamente para ajudar na precisão do diagnóstico e no planeamento atempado do tratamento. Vê como YOLO é utilizado para a deteção de tumores.
Sistemas de segurança: Os sistemas de vigilância em tempo real utilizam a IA para a deteção de ameaças (por exemplo, identificar intrusos ou objectos abandonados). A baixa latência permite alertas e respostas imediatas, como num sistema de alarme de segurança.

Factores que afectam a latência da inferência

Vários factores influenciam a rapidez com que um modelo pode realizar a inferência:

Complexidade do modelo: As redes neurais (NN) maiores e mais complexas requerem geralmente mais computação, o que leva a uma maior latência. A escolha da arquitetura desempenha um papel importante. Podes comparar diferentes modelos, como YOLOv10 vs YOLO11, para veres as compensações.
Hardware: O poder de processamento do hardware usado para inferência é crucial. Hardware especializado como GPUs, TPUs ou aceleradores de IA dedicadosGoogle Edge TPUs, NVIDIA Jetson) podem reduzir significativamente a latência em comparação com CPUs padrão.
Otimização de software: Usa mecanismos de inferência otimizados como NVIDIA TensorRT ou o OpenVINO daIntel pode melhorar drasticamente o desempenho, otimizando o gráfico do modelo e aproveitando as instruções específicas do hardware. Frameworks como PyTorch também oferecem ferramentas para otimização. Exportar modelos para formatos como ONNX facilita a implementação em diferentes motores.
Tamanho do lote: O processamento de várias entradas em conjunto(batching) pode melhorar o rendimento geral, mas muitas vezes aumenta a latência das inferências individuais. As aplicações em tempo real normalmente usam um tamanho de lote de 1.
Transferência de dados: O tempo necessário para mover os dados de entrada para o modelo e recuperar a saída pode aumentar a latência geral, especialmente em cenários de computação distribuída ou em nuvem.
Quantização e poda: Técnicas como a quantização do modelo (redução da precisão numérica) e a poda do modelo (remoção de parâmetros redundantes do modelo) podem reduzir o tamanho do modelo e os requisitos computacionais, diminuindo a latência. Lê mais sobre o que é a otimização de modelos neste guia rápido.

Gerir a latência da inferência é um ato de equilíbrio crítico entre a precisão do modelo, o custo computacional e o tempo de resposta, essencial para a implementação de soluções de IA eficazes geridas através de plataformas como o Ultralytics HUB. Compreender as etapas de um projeto de visão computacional inclui o planeamento destes requisitos de desempenho durante a implementação do modelo.

Latência de inferência

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Solução flexível de licenciamento empresarial para impulsionar a tua inovação

Treina modelos de IA em segundos com Ultralytics YOLO

Treina os modelos YOLO simplesmente com Ultralytics HUB

Relevância da latência de inferência

Aplicações no mundo real

Factores que afectam a latência da inferência

Lê mais blogues

Junta-te à comunidade Ultralytics

Latência de inferência

Treina os modelos YOLO simplesmentecom Ultralytics HUB

Solução flexível de licenciamento empresarial para impulsionar a tua inovação

Treina modelos de IA em segundos com Ultralytics YOLO

Treina os modelos YOLO simplesmente com Ultralytics HUB

Relevância da latência de inferência

Aplicações no mundo real

Factores que afectam a latência da inferência

Lê mais blogues

Junta-te à comunidade Ultralytics

Treina os modelos YOLO simplesmente
com Ultralytics HUB