Explore o poder da inferência em tempo real para previsões instantâneas de IA. Saiba como Ultralytics oferece resultados de baixa latência para dispositivos de ponta e robótica.
A inferência em tempo real refere-se ao processo em que um modelo treinado de aprendizagem automática (ML) aceita dados de entrada em tempo real e gera previsões quase instantaneamente. Ao contrário do processamento offline, em que os dados são recolhidos e analisados em massa posteriormente, a inferência em tempo real ocorre instantaneamente, permitindo que os sistemas reajam ao seu ambiente com rapidez e agilidade. Essa capacidade é o coração das modernas aplicações de Inteligência Artificial (IA), permitindo que os dispositivos percebam, interpretem e ajam com base nos dados em milissegundos.
A principal métrica para avaliar o desempenho em tempo real é a latência de inferência. Ela mede o atraso de tempo entre o momento em que os dados são inseridos no modelo — como um quadro de uma câmara de vídeo — e o momento em que o modelo produz uma saída, como uma caixa delimitadora ou rótulo de classificação. Para que uma aplicação seja considerada «em tempo real», a latência deve ser baixa o suficiente para corresponder à velocidade do fluxo de dados recebidos.
Por exemplo, em tarefas de compreensão de vídeo executadas a 30 fotogramas por segundo (FPS), o sistema tem um tempo estrito de aproximadamente 33 milissegundos para processar cada fotograma. Se a inferência demorar mais tempo, o sistema introduz um atraso, podendo levar à perda de fotogramas ou respostas atrasadas. Para conseguir isso, muitas vezes é necessária a aceleração de hardware usando GPUs ou dispositivos especializados de Edge AI, como o NVIDIA .
É útil distinguir fluxos de trabalho em tempo real do processamento em lote. Embora ambos envolvam a geração de previsões, os seus objetivos e arquiteturas diferem significativamente:
A capacidade de tomar decisões em frações de segundo transformou vários setores, permitindo a automação em ambientes dinâmicos .
A implementação de modelos para aplicações em tempo real frequentemente requer otimização para garantir que funcionem de forma eficiente no hardware de destino. Técnicas como a quantização do modelo reduzem a precisão dos pesos do modelo (por exemplo, de float32 para int8) para diminuir o uso de memória e aumentar a velocidade de inferência com impacto mínimo na precisão.
Os programadores podem utilizar a Ultralytics para otimizar esse processo. A plataforma simplifica o treinamento e permite que os utilizadores exportem modelos para formatos otimizados, como TensorRT para NVIDIA , OpenVINO para Intel ou TFLite para implementação móvel.
O seguinte Python demonstra como executar inferência em tempo real em uma transmissão de webcam usando o
ultralytics biblioteca. Utiliza o YOLO26 Nano,
que foi projetado especificamente para desempenho de alta velocidade em dispositivos de ponta.
from ultralytics import YOLO
# Load the YOLO26 Nano model, optimized for speed and real-time tasks
model = YOLO("yolo26n.pt")
# Run inference on the default webcam (source="0")
# 'stream=True' returns a generator for memory-efficient processing
# 'show=True' displays the video feed with bounding boxes in real-time
results = model.predict(source="0", stream=True, show=True)
# Iterate through the generator to process frames as they arrive
for result in results:
# Example: Print the number of objects detected in the current frame
print(f"Detected {len(result.boxes)} objects")