Glossário

Inferência em tempo real

Descobre como a inferência em tempo real com Ultralytics YOLO permite previsões instantâneas para aplicações de IA, como condução autónoma e sistemas de segurança.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A inferência em tempo real refere-se ao processo em que um modelo de aprendizagem automática (ML) treinado faz previsões ou toma decisões imediatamente à medida que chegam novos dados. Ao contrário da inferência em lote, que processa dados em grupos recolhidos ao longo do tempo, a inferência em tempo real dá prioridade à baixa latência e às respostas instantâneas. Esta capacidade é essencial para aplicações que requerem feedback ou ação imediata com base em fluxos de dados em tempo real, permitindo que os sistemas reajam dinamicamente às condições em mudança.

Compreender a inferência em tempo real

Na prática, a inferência em tempo real significa implementar um modelo de ML, como um Ultralytics YOLO da Ultralytics para visão por computador, para que possa analisar entradas de dados individuais (como fotogramas de vídeo ou leituras de sensores) e produzir resultados com um atraso mínimo. A principal métrica de desempenho é a latência de inferência, o tempo necessário para receber uma entrada e gerar uma previsão. Conseguir uma baixa latência geralmente envolve várias estratégias:

  • Otimização de modelos: Técnicas como a quantização do modelo (reduzindo a precisão dos pesos do modelo) e a poda do modelo (removendo parâmetros menos importantes do modelo) são utilizadas para criar modelos mais pequenos e mais rápidos.
  • Aceleração de hardware: A utilização de hardware especializado como GPUs, TPUs ou aceleradores de IA dedicados em dispositivos de ponta (por exemplo, NVIDIA Jetson, Google Coral Edge TPU) acelera significativamente os cálculos.
  • Software eficiente: Utilizando motores de inferência optimizados e tempos de execução como o TensorRT, OpenVINOou ONNX Runtime ajuda a maximizar o desempenho no hardware de destino. Frameworks como PyTorch também oferecem funcionalidades que suportam uma inferência eficiente.

Inferência em tempo real vs. Inferência em lote

A principal diferença reside na forma como os dados são processados e nos requisitos de latência associados:

  • Inferência em tempo real: Processa pontos de dados individuais ou pequenos minilotes à medida que eles chegam. Concentra-se em minimizar a latência para obter resultados imediatos. Ideal para sistemas interativos ou aplicativos que reagem a eventos ao vivo.
  • Inferência em lote: Processa grandes volumes de dados acumulados ao longo do tempo. Concentra-se em maximizar a taxa de transferência (processar grandes quantidades de dados de forma eficiente) em vez de minimizar a latência para previsões individuais. Adequado para análises off-line, relatórios ou tarefas em que os resultados imediatos não são críticos, conforme explicado na visão geral da previsão em lote doGoogle Cloud.

Aplicações da inferência em tempo real

A inferência em tempo real está na base de muitas aplicações modernas de IA em que a tomada de decisões instantâneas é crucial:

  1. Sistemas autónomos: Os automóveis autónomos dependem fortemente da inferência em tempo real para a deteção de objectos (identificação de peões, veículos, obstáculos) e navegação, permitindo que o veículo reaja instantaneamente ao que o rodeia. Os modelos Ultralytics são frequentemente utilizados no desenvolvimento de IA para automóveis autónomos.
  2. Segurança e vigilância: Os sistemas de segurança alimentados por IA utilizam a inferência em tempo real para detetar intrusões, identificar actividades suspeitas ou monitorizar multidões em feeds de vídeo em direto, permitindo alertas e respostas imediatas.
  3. Diagnósticos no sector da saúde: Na análise de imagens médicas, a inferência em tempo real pode ajudar os médicos durante os procedimentos, fornecendo feedback instantâneo ou destacando anomalias em imagens em tempo real, como os ultra-sons, melhorando potencialmente a precisão do diagnóstico.
  4. Automação industrial: A inferência em tempo real permite o controlo de qualidade automatizado no fabrico, identificando instantaneamente defeitos nas linhas de produção ou orientando braços robóticos para tarefas precisas.

Plataformas como o Ultralytics HUB fornecem ferramentas para treinar, otimizar e implementar modelos, facilitando a implementação de soluções de inferência em tempo real em várias opções de implementação.

Lê tudo