Glossário

Latência de inferência

Optimiza o desempenho da IA com baixa latência de inferência. Aprende os principais factores, aplicações do mundo real e técnicas para melhorar as respostas em tempo real.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A latência de inferência é uma métrica crítica na inteligência artificial e na aprendizagem automática, especialmente quando se implementam modelos para aplicações reais. Refere-se ao tempo de atraso entre o momento em que uma entrada (como uma imagem ou consulta de texto) é apresentada a um modelo treinado e o momento em que o modelo produz uma previsão ou saída. Essencialmente, mede a rapidez com que um modelo pode processar novos dados e fornecer um resultado. Minimizar a latência da inferência é muitas vezes crucial para aplicações que requerem respostas atempadas, afectando diretamente a usabilidade e a eficácia dos sistemas de IA.

Relevância da latência de inferência

A baixa latência de inferência é vital para uma experiência positiva do utilizador e para a viabilidade de muitas aplicações de IA. Em sistemas interactivos, como chatbots ou serviços de tradução em tempo real, uma latência elevada leva a atrasos visíveis, frustrando os utilizadores. Para aplicações críticas como veículos autónomos ou ferramentas de diagnóstico médico, mesmo pequenos atrasos podem ter consequências significativas, afectando a segurança e a tomada de decisões. Por conseguinte, compreender, medir e otimizar a latência da inferência é um aspeto fundamental da implementação eficaz de modelos de IA. É uma métrica distinta do rendimento, que mede o número de inferências processadas por unidade de tempo; uma aplicação pode exigir baixa latência (resposta individual rápida) mesmo que o rendimento geral não seja extremamente elevado.

Aplicações no mundo real

A importância de uma baixa latência de inferência é evidente em vários domínios:

  • Condução autónoma: Os carros de condução autónoma dependem de modelos de visão por computador para tarefas como a deteção de objectos (por exemplo, identificar peões, outros veículos). A baixa latência é essencial para que o veículo reaja rapidamente ao seu ambiente, garantindo a segurança. Um atraso de até milissegundos na deteção de um obstáculo pode ser crítico.
  • Sistemas de segurança em tempo real: As câmaras de segurança alimentadas por IA utilizam modelos para detetar intrusões ou eventos específicos. Para que um sistema de alarme de segurança seja eficaz, deve processar feeds de vídeo e acionar alertas quase instantaneamente ao detetar uma ameaça, exigindo uma latência de inferência mínima.

Factores que afectam a latência da inferência

Vários factores influenciam a rapidez com que um modelo pode realizar a inferência:

  • Complexidade do modelo: Redes neurais (NN) maiores e mais complexas geralmente exigem mais computação, levando a uma latência mais alta. Arquiteturas mais simples, como algumas Ultralytics YOLO do Ultralytics, são frequentemente otimizadas para velocidade.
  • Hardware: O tipo de processador utilizado tem um impacto significativo na latência. GPUs e hardware especializado, como TPUs ou Google Edge TPUs, geralmente oferecem latência mais baixa do que CPUs padrão para tarefas de aprendizado profundo.
  • Otimização de software: Frameworks e bibliotecas como TensorRT ou OpenVINO são concebidas para otimizar modelos para hardware específico, reduzindo a latência. A estrutura subjacente, como o PyTorchtambém desempenha um papel importante.
  • Tamanho do lote: O processamento de entradas individualmente(tamanho delote de 1) geralmente minimiza a latência para essa única entrada, enquanto tamanhos de lote maiores podem melhorar o rendimento, mas podem aumentar a latência para previsões individuais.
  • Condições da rede: Para modelos implementados na nuvem acedidos através de uma API, a velocidade e a estabilidade da rede podem acrescentar uma latência significativa. As implantações de IA de borda atenuam isso processando dados localmente.

Reduzir a latência da inferência

Conseguir uma baixa latência de inferência envolve frequentemente uma combinação de estratégias:

  • Otimização do modelo: Técnicas como a quantização do modelo (reduzindo a precisão dos pesos do modelo) e a poda do modelo (removendo partes menos importantes do modelo) podem reduzir significativamente o tamanho do modelo e os requisitos computacionais.
  • Aceleração de hardware: A implementação de modelos em hardware potente, como GPUs ou aceleradores de IA dedicadosNVIDIA Jetson, FPGAs), é uma abordagem comum.
  • Formatos de implantação eficientes: Exportação de modelos para formatos optimizados como ONNX ou usar mecanismos de inferência especializados pode gerar aumentos substanciais de velocidade. Explora várias opções de implementação de modelos para encontrar a melhor opção.
  • Seleção do modelo: A escolha de uma arquitetura de modelo concebida para ser eficiente, como o YOLOv10, pode proporcionar um bom equilíbrio entre precisão e velocidade.
  • Ferramentas de plataforma: A utilização de plataformas como o Ultralytics HUB pode simplificar o processo de formação, otimização (por exemplo, através da quantização INT8) e implementação de modelos para um desempenho de baixa latência.

Em resumo, a latência da inferência é uma métrica de desempenho fundamental para os modelos de IA implementados, particularmente crítica para aplicações que exigem inferência em tempo real. A consideração cuidadosa da arquitetura do modelo, do hardware e das técnicas de otimização é essencial para satisfazer os requisitos de latência de aplicações específicas.

Lê tudo