Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Inferência em Tempo Real

Explore o poder da inferência em tempo real para previsões instantâneas de IA. Saiba como Ultralytics oferece resultados de baixa latência para dispositivos de ponta e robótica.

A inferência em tempo real refere-se ao processo em que um modelo treinado de aprendizagem automática (ML) aceita dados de entrada em tempo real e gera previsões quase instantaneamente. Ao contrário do processamento offline, em que os dados são recolhidos e analisados em massa posteriormente, a inferência em tempo real ocorre instantaneamente, permitindo que os sistemas reajam ao seu ambiente com rapidez e agilidade. Essa capacidade é o coração das modernas aplicações de Inteligência Artificial (IA), permitindo que os dispositivos percebam, interpretem e ajam com base nos dados em milissegundos.

A importância da baixa latência

A principal métrica para avaliar o desempenho em tempo real é a latência de inferência. Ela mede o atraso de tempo entre o momento em que os dados são inseridos no modelo — como um quadro de uma câmara de vídeo — e o momento em que o modelo produz uma saída, como uma caixa delimitadora ou rótulo de classificação. Para que uma aplicação seja considerada «em tempo real», a latência deve ser baixa o suficiente para corresponder à velocidade do fluxo de dados recebidos.

Por exemplo, em tarefas de compreensão de vídeo executadas a 30 fotogramas por segundo (FPS), o sistema tem um tempo estrito de aproximadamente 33 milissegundos para processar cada fotograma. Se a inferência demorar mais tempo, o sistema introduz um atraso, podendo levar à perda de fotogramas ou respostas atrasadas. Para conseguir isso, muitas vezes é necessária a aceleração de hardware usando GPUs ou dispositivos especializados de Edge AI, como o NVIDIA .

Inferência em tempo real vs. Inferência em lote

É útil distinguir fluxos de trabalho em tempo real do processamento em lote. Embora ambos envolvam a geração de previsões, os seus objetivos e arquiteturas diferem significativamente:

  • Inferência em tempo real: prioriza a baixa latência. Processa pontos de dados únicos (ou lotes muito pequenos ) assim que chegam. Isso é essencial para aplicações interativas, como veículos autónomos, em que um carro deve detect instantaneamente detect pedestre para travar a tempo.
  • Inferência em lote: prioriza o alto rendimento. Recolhe um grande volume de dados e processa-os de uma só vez. É adequado para tarefas não urgentes, como gerar relatórios de inventário noturnos ou analisar tendências históricas de big data.

Aplicações no Mundo Real

A capacidade de tomar decisões em frações de segundo transformou vários setores, permitindo a automação em ambientes dinâmicos .

  • Fabricação inteligente: Na IA na fabricação, câmaras posicionadas sobre correias transportadoras usam inferência em tempo real para realizar o controlo de qualidade automatizado. Um modelo de deteção de objetos pode identificar instantaneamente defeitos ou objetos estranhos em produtos que se movem em alta velocidade. Se uma anomalia for detetada, o sistema aciona um braço robótico para remover o item imediatamente, garantindo que apenas produtos de alta qualidade cheguem à embalagem.
  • Vigilância e segurança: Os sistemas de segurança modernos dependem da visão computacional para monitorizar perímetros. Em vez de apenas gravar imagens, essas câmaras executam deteção de pessoas ou reconhecimento facial em tempo real para alertar o pessoal de segurança sobre acessos não autorizados no momento em que ocorrem.
  • Robótica: No campo da IA em robótica, os robôs utilizam a estimativa de pose para navegar em espaços físicos complexos . Um robô de armazém deve inferir continuamente a localização de obstáculos e trabalhadores humanos para planear o seu percurso de forma segura e eficiente.

Otimização e implementação

A implementação de modelos para aplicações em tempo real frequentemente requer otimização para garantir que funcionem de forma eficiente no hardware de destino. Técnicas como a quantização do modelo reduzem a precisão dos pesos do modelo (por exemplo, de float32 para int8) para diminuir o uso de memória e aumentar a velocidade de inferência com impacto mínimo na precisão.

Os programadores podem utilizar a Ultralytics para otimizar esse processo. A plataforma simplifica o treinamento e permite que os utilizadores exportem modelos para formatos otimizados, como TensorRT para NVIDIA , OpenVINO para Intel ou TFLite para implementação móvel.

Exemplo de código

O seguinte Python demonstra como executar inferência em tempo real em uma transmissão de webcam usando o ultralytics biblioteca. Utiliza o YOLO26 Nano, que foi projetado especificamente para desempenho de alta velocidade em dispositivos de ponta.

from ultralytics import YOLO

# Load the YOLO26 Nano model, optimized for speed and real-time tasks
model = YOLO("yolo26n.pt")

# Run inference on the default webcam (source="0")
# 'stream=True' returns a generator for memory-efficient processing
# 'show=True' displays the video feed with bounding boxes in real-time
results = model.predict(source="0", stream=True, show=True)

# Iterate through the generator to process frames as they arrive
for result in results:
    # Example: Print the number of objects detected in the current frame
    print(f"Detected {len(result.boxes)} objects")

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora