Descobre como a inferência em tempo real com Ultralytics YOLO permite previsões instantâneas para aplicações de IA, como condução autónoma e sistemas de segurança.
A inferência em tempo real refere-se ao processo em que um modelo de aprendizagem automática (ML) treinado faz previsões ou toma decisões imediatamente à medida que chegam novos dados. Ao contrário da inferência em lote, que processa dados em grupos recolhidos ao longo do tempo, a inferência em tempo real dá prioridade à baixa latência e às respostas instantâneas. Esta capacidade é essencial para aplicações que requerem feedback ou ação imediata com base em fluxos de dados em tempo real, permitindo que os sistemas reajam dinamicamente às condições em mudança, alinhando-se com os princípios da computação em tempo real.
Na prática, a inferência em tempo real significa implementar um modelo de ML, como um Ultralytics YOLO da Ultralytics para visão por computador (CV), para que possa analisar entradas de dados individuais (como fotogramas de vídeo ou leituras de sensores) e produzir resultados com um atraso mínimo. A principal métrica de desempenho é a latência da inferência, o tempo necessário para receber uma entrada e gerar uma previsão. Conseguir uma baixa latência envolve muitas vezes várias estratégias, incluindo a otimização do próprio modelo e o aproveitamento de hardware e software especializados.
A principal diferença reside na forma como os dados são processados e nos requisitos de latência associados:
A inferência em tempo real está na base de muitas aplicações modernas de Inteligência Artificial (IA) em que a tomada de decisões instantâneas é crucial:
Para que os modelos sejam executados com rapidez suficiente para aplicações em tempo real, muitas vezes é necessária uma otimização significativa:
Modelos como Ultralytics YOLO11 são concebidos tendo em mente a eficiência e a precisão, o que os torna adequados para tarefas de deteção de objectos em tempo real. Plataformas como o Ultralytics HUB fornecem ferramentas para treinar, otimizar (por exemplo, exportar para ONNX ou TensorRT ) e implementar modelos, facilitando a implementação de soluções de inferência em tempo real em várias opções de implementação.