Glossário

Inferência em tempo real

Descobre como a inferência em tempo real com Ultralytics YOLO permite previsões instantâneas para aplicações de IA, como condução autónoma e sistemas de segurança.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A inferência em tempo real refere-se ao processo em que um modelo de aprendizagem automática (ML) treinado faz previsões ou toma decisões imediatamente à medida que chegam novos dados. Ao contrário da inferência em lote, que processa dados em grupos recolhidos ao longo do tempo, a inferência em tempo real dá prioridade à baixa latência e às respostas instantâneas. Esta capacidade é essencial para aplicações que requerem feedback ou ação imediata com base em fluxos de dados em tempo real, permitindo que os sistemas reajam dinamicamente às condições em mudança, alinhando-se com os princípios da computação em tempo real.

Compreender a inferência em tempo real

Na prática, a inferência em tempo real significa implementar um modelo de ML, como um Ultralytics YOLO da Ultralytics para visão por computador (CV), para que possa analisar entradas de dados individuais (como fotogramas de vídeo ou leituras de sensores) e produzir resultados com um atraso mínimo. A principal métrica de desempenho é a latência da inferência, o tempo necessário para receber uma entrada e gerar uma previsão. Conseguir uma baixa latência envolve muitas vezes várias estratégias, incluindo a otimização do próprio modelo e o aproveitamento de hardware e software especializados.

Inferência em tempo real vs. Inferência em lote

A principal diferença reside na forma como os dados são processados e nos requisitos de latência associados:

  • Inferência em tempo real: Processa os dados ponto a ponto à medida que chegam, concentrando-se em minimizar o atraso de cada previsão. Essencial para sistemas interactivos ou aplicações que necessitem de respostas imediatas. Pensa na deteção de um obstáculo para um carro autónomo.
  • Inferência em lote: Processa dados em grandes pedaços ou lotes, geralmente programados periodicamente. Otimiza a taxa de transferência (processamento eficiente de grandes volumes de dados) em vez de latência. Adequado para tarefas como gerar relatórios diários ou analisar grandes conjuntos de dados offline. Google Cloud oferece informações sobre a previsão de lotes.

Aplicações da inferência em tempo real

A inferência em tempo real está na base de muitas aplicações modernas de Inteligência Artificial (IA) em que a tomada de decisões instantâneas é crucial:

  • Sistemas autónomos: Na IA para carros autónomos e robótica, a inferência em tempo real é fundamental para navegar em ambientes, detetar obstáculos(deteção de objectos) e tomar decisões de condução em fracções de segundo.
  • Segurança e vigilância: Os sistemas de segurança utilizam a inferência em tempo real para detetar intrusões, identificar actividades suspeitas ou monitorizar multidões instantaneamente.
  • Cuidados de saúde: Permitir a análise imediata de imagens médicas durante procedimentos ou diagnósticos pode melhorar significativamente os resultados dos pacientes e a precisão do diagnóstico.
  • Fabrico: O controlo de qualidade em tempo real no fabrico permite a deteção imediata de defeitos na linha de produção, reduzindo o desperdício e melhorando a eficiência.
  • Aplicações interactivas: Os assistentes virtuais, a tradução de línguas em tempo real e os sistemas de recomendação de conteúdos dependem da inferência de baixa latência para proporcionar experiências de utilizador sem falhas.

Atingir o desempenho em tempo real

Para que os modelos sejam executados com rapidez suficiente para aplicações em tempo real, muitas vezes é necessária uma otimização significativa:

Modelos como Ultralytics YOLO11 são concebidos tendo em mente a eficiência e a precisão, o que os torna adequados para tarefas de deteção de objectos em tempo real. Plataformas como o Ultralytics HUB fornecem ferramentas para treinar, otimizar (por exemplo, exportar para ONNX ou TensorRT ) e implementar modelos, facilitando a implementação de soluções de inferência em tempo real em várias opções de implementação.

Lê tudo