Inferência em tempo real

Descubra como a inferência em tempo real com o Ultralytics YOLO permite previsões instantâneas para aplicações de IA, como condução autónoma e sistemas de segurança.

A inferência em tempo real é o processo de utilização de um modelo de aprendizagem automática (ML) treinado para efetuar previsões em dados novos e em tempo real com um atraso mínimo. No contexto da IA e da visão por computador (CV), isto significa que o sistema pode processar informações - como um fluxo de vídeo - e gerar um resultado quase instantaneamente. O objetivo é tornar a latência da inferência suficientemente baixa para que os resultados sejam imediatamente úteis para a tomada de decisões. Esta capacidade é crucial para aplicações em que o tempo é crítico, transformando a forma como as indústrias, desde a automóvel à dos cuidados de saúde, tiram partido da IA.

Inferência em tempo real Vs. Inferência em lote

É importante distinguir a inferência em tempo real da inferência em lote. A principal diferença reside na forma como os dados são processados.

Inferência em tempo real: Processa os dados à medida que são gerados ou recebidos, normalmente uma entrada ou um pequeno fluxo de cada vez. A prioridade é minimizar o atraso(latência) entre a entrada e a saída. Isto é essencial para sistemas interactivos e sensíveis ao tempo.
Inferência em lote: Envolve a recolha de dados durante um período e o seu processamento de uma só vez num grande lote. Esta abordagem dá prioridade à maximização do rendimento (a quantidade de dados processados ao longo do tempo) em vez de minimizar a latência. O processamento em lote é adequado para tarefas não urgentes, como a geração de relatórios diários ou a análise periódica de grandes conjuntos de dados.

Embora ambos utilizem um modelo treinado para fazer previsões, os seus casos de utilização são fundamentalmente diferentes com base na urgência dos resultados.

Aplicações no mundo real

A capacidade de tomar decisões instantâneas permite uma vasta gama de aplicações poderosas em vários sectores.

Sistemas autónomos: Nos carros autónomos, a inferência em tempo real é uma questão de segurança. Os modelos têm de efetuar a deteção de objectos para identificar peões, outros veículos e sinais de trânsito em milissegundos para navegar em segurança e evitar colisões. Do mesmo modo, os drones e os robôs dependem da inferência para navegar e interagir com o seu ambiente.
Fabrico inteligente: Numa linha de produção, as câmaras equipadas com IA podem efetuar um controlo de qualidade em tempo real. Um modelo como o Ultralytics YOLO11 pode detetar defeitos em produtos que se deslocam numa correia transportadora, permitindo a sua remoção imediata. Este é um componente essencial da IA moderna no fabrico.
Cuidados de saúde interactivos: Durante uma intervenção cirúrgica, um modelo pode analisar o vídeo em direto de uma câmara para fornecer orientações em tempo real ao cirurgião. Em contextos de diagnóstico, a análise de imagens médicas em tempo real pode ajudar os médicos a identificar anomalias mais rapidamente durante os exames em direto.
Vigilância inteligente: Os sistemas de segurança modernos utilizam inferência em tempo real para analisar feeds de vídeo e identificar potenciais ameaças, como entradas não autorizadas ou pacotes abandonados, accionando alertas imediatos. Isto vai além da simples gravação e passa a ser uma monitorização ativa e inteligente.

Atingir o desempenho em tempo real

Fazer com que os modelos funcionem suficientemente rápido para aplicações de computação em tempo real requer frequentemente uma otimização significativa:

Otimização de modelos: Técnicas como a quantização do modelo (reduzindo a precisão dos pesos do modelo) e a poda do modelo (removendo partes redundantes do modelo) reduzem a carga computacional e a utilização da memória.
Aceleração de hardware: A utilização de hardware especializado, como GPUs, TPUs (Tensor Processing Units) ou aceleradores de IA dedicados em dispositivos de ponta (por exemplo, NVIDIA Jetson, Google Coral Edge TPU) pode acelerar drasticamente os cálculos. A própria computação periférica é crucial para processar dados localmente com um atraso mínimo.
Motores de inferência eficientes: Bibliotecas de software e tempos de execução como TensorRT, OpenVINO, ONNX Runtime e estruturas como PyTorch ou TensorFlow fornecem caminhos de execução optimizados para modelos treinados. Um mecanismo de inferência é projetado especificamente para executar modelos de forma eficiente para previsão.

Modelos como o Ultralytics YOLO foram concebidos tendo em mente a eficiência e a precisão, o que os torna adequados para tarefas de deteção de objectos em tempo real. Plataformas como o Ultralytics HUB fornecem ferramentas para treinar, otimizar (por exemplo, exportar para os formatos ONNX ou TensorRT) e implementar modelos, facilitando a implementação de soluções de inferência em tempo real em várias opções de implementação.

Inferência em tempo real

Solução flexível de licenciamento empresarial para impulsionar a sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Treine modelos YOLO de forma simples com o Ultralytics HUB

Inferência em tempo real Vs. Inferência em lote

Aplicações no mundo real

Atingir o desempenho em tempo real

Ler mais nesta categoria

FastVLM: Apple apresenta o seu novo modelo de linguagem de visão rápida

Explicação da aprendizagem automática em circuito humano (HITL)

Automação do fabrico através de IA de visão

Junte-se à comunidade Ultralytics