As inferências em tempo real nas soluções Vision AI estão a ter impacto

Descobre porque é que as inferências em tempo real na visão computacional são importantes para uma série de aplicações e explora o seu papel na tomada de decisões instantâneas.

Escrito por

Abirami Vina

min ler

20 de fevereiro de 2025

24 de março de 2025

O que é uma inferência de IA?

Compreender os motores de inferência

Problemas causados pela latência da inferência

Como reduzir a latência da inferência

Poda de modelos

Quantização do modelo

Utilizar modelos eficientes

Velocidade vs. precisão: otimizar as inferências em tempo real

Aplicações de IA de visão que tiram partido das inferências em tempo real

Sistemas de auto-pagamento em lojas de retalho

Inspeção da qualidade através da visão por computador

Principais conclusões

Todos nós já lidámos com as frustrações que uma ligação lenta à Internet pode causar em algum momento. No entanto, imagina esse atraso numa situação de alto risco, como um carro autónomo a reagir a um obstáculo ou um médico a analisar um exame crítico. Alguns segundos a mais podem ter consequências graves.

É aqui que a inferência de IA em tempo real pode fazer a diferença. O processamento rápido e as previsões em tempo real permitem que as soluções de visão por computador processem e reajam aos dados visuais instantaneamente. Estas decisões em fracções de segundo podem aumentar a segurança, a eficiência e a conveniência quotidiana.

Por exemplo, considera um cirurgião a realizar uma intervenção delicada utilizando um assistente robótico. Cada movimento é controlado através de uma ligação de alta velocidade e o sistema de visão do robô processa o campo cirúrgico em tempo real, dando ao cirurgião um feedback visual instantâneo. Mesmo o mais pequeno atraso neste ciclo de feedback pode levar a erros graves, colocando o paciente em risco. Este é um exemplo perfeito da razão pela qual as inferências em tempo real são cruciais; não há espaço para atrasos.

As inferências de IA em aplicações do mundo real dependem de três conceitos-chave: motores de inferência (o software ou hardware que executa eficazmente os modelos de IA), latência de inferência (o atraso entre a entrada e a saída) e inferências em tempo real (a capacidade do sistema de IA para processar e reagir com um atraso mínimo).

Neste artigo, vamos explorar estes conceitos fundamentais e a forma como os modelos de visão por computador, como o Ultralytics YOLO11 permitem aplicações que dependem de previsões instantâneas.

O que é uma inferência de IA?

Executar uma inferência é o processo de analisar novos dados utilizando um modelo de IA treinado para fazer uma previsão ou resolver uma tarefa. Ao contrário da formação, que envolve o ensino de um modelo através do processamento de grandes quantidades de dados rotulados, a inferência centra-se na produção de resultados de forma rápida e precisa utilizando um modelo já treinado.

Figura 1. Compreende o que são inferências.

‍

Por exemplo, na conservação da vida selvagem, as armadilhas fotográficas com IA utilizam modelos de visão por computador para identificar e classificar animais em tempo real. Quando uma câmara detecta um movimento, o modelo de IA reconhece instantaneamente se se trata de um veado, um predador ou até mesmo um caçador furtivo, ajudando os investigadores a seguir as populações de animais e a proteger as espécies em perigo sem intervenção humana. Esta identificação rápida torna possível a monitorização em tempo real e respostas mais rápidas a potenciais ameaças.

Compreender os motores de inferência

Um modelo de aprendizagem automática treinado nem sempre está pronto para ser implementado na sua forma bruta. Um motor de inferência é um software especializado ou uma ferramenta de hardware concebida para executar eficientemente modelos de aprendizagem automática e optimizá-los para a implementação no mundo real. Utiliza técnicas de otimização como a compressão de modelos, a quantização e as transformações de gráficos para melhorar o desempenho e reduzir o consumo de recursos, tornando o modelo implementável em vários ambientes.

Na sua essência, um motor de inferência concentra-se em reduzir a sobrecarga computacional, minimizar a latência e melhorar a eficiência para permitir previsões rápidas e precisas. Uma vez optimizado, o motor executa o modelo em novos dados, permitindo-lhe gerar inferências em tempo real de forma eficiente. Esta otimização garante que os modelos de IA podem ser executados sem problemas tanto em servidores de nuvem de alto desempenho como em dispositivos de ponta com recursos limitados, como smartphones, dispositivos IoT e sistemas incorporados.

Problemas causados pela latência da inferência

A latência de inferência é o atraso entre o momento em que um sistema de IA recebe dados de entrada (como uma imagem de uma câmara) e o momento em que produz um resultado (como a deteção de objectos na imagem). Mesmo um pequeno atraso pode afetar significativamente o desempenho e a usabilidade das aplicações de IA em tempo real.

A latência da inferência ocorre em três fases principais:

Tempo de pré-processamento: O tempo necessário para preparar os dados de entrada antes de serem introduzidos no modelo. Inclui o redimensionamento de imagens para corresponderem às dimensões de entrada do modelo, a normalização dos valores de pixéis para uma melhor precisão e a conversão de formatos (por exemplo, RGB para escala de cinzentos ou vídeo para sequências de fotogramas).
Tempo de computação: O tempo real que o modelo demora a efetuar a inferência. Envolve operações como cálculos por camadas em redes profundas, multiplicações de matrizes, convoluções e transferência de dados entre a memória e as unidades de processamento.
Tempo de pós-processamento: O tempo necessário para converter os resultados brutos do modelo em resultados significativos. Isto pode incluir o desenho de caixas delimitadoras na deteção de objectos, a filtragem de falsos positivos no reconhecimento de imagens ou a aplicação de limiares na deteção de anomalias.

A latência da inferência é crítica em aplicações em tempo real. Por exemplo, na deteção automatizada de defeitos numa linha de montagem, a visão por computador pode ser utilizada para inspecionar produtos à medida que estes se deslocam pelo tapete rolante.

O sistema tem de identificar e assinalar rapidamente os defeitos antes de os produtos passarem à fase seguinte. Se o modelo demorar demasiado tempo a processar as imagens, os itens defeituosos podem não ser detectados a tempo, levando ao desperdício de materiais, a retrabalho dispendioso ou a produtos defeituosos que chegam aos clientes. Ao reduzir a latência, os fabricantes podem melhorar o controlo de qualidade, aumentar a eficiência e reduzir as perdas.

Como reduzir a latência da inferência

Manter a latência de inferência mínima é essencial em muitas aplicações de visão computacional. Para o conseguir, podem ser utilizadas várias técnicas. Vamos discutir algumas das técnicas mais comuns usadas para reduzir a latência da inferência.

Poda de modelos

A poda de modelos simplifica uma rede neural, removendo conexões desnecessárias (pesos), tornando-a menor e mais rápida. Esse processo reduz a carga computacional do modelo, melhorando a velocidade sem afetar muito a precisão.

Ao manter apenas as ligações mais importantes, a poda garante uma inferência eficiente e um melhor desempenho, especialmente em dispositivos com poder de processamento limitado. É amplamente utilizado em aplicações em tempo real, como a IA móvel, a robótica e a computação de ponta, para melhorar a eficiência e manter a fiabilidade.

Figura 2. Elimina as ligações menos eficazes utilizando a poda de modelos.

‍

Quantização do modelo

A quantização de modelos é uma técnica que faz com que os modelos de IA funcionem mais rapidamente e utilizem menos memória, simplificando os números que utilizam para os cálculos. Normalmente, estes modelos funcionam com números de vírgula flutuante de 32 bits, que são muito precisos mas requerem muito poder de processamento. A quantização reduz estes números para números inteiros de 8 bits, que são mais fáceis de processar e ocupam menos espaço.

Figura 3. Utiliza a quantização de modelos para converter valores de vírgula flutuante em representações inteiras.

‍

Utilizar modelos eficientes

A conceção de um modelo de IA tem um grande impacto na rapidez com que consegue fazer previsões. Modelos como o YOLO11, que são construídos para uma inferência eficiente, são ideais para aplicações em que a velocidade de processamento é crítica.

Quando estás a criar uma solução de IA, é importante escolher o modelo certo com base nos recursos disponíveis e nas necessidades de desempenho. Se começares com um modelo demasiado pesado, é mais provável que te depares com problemas como tempos de processamento lentos, maior consumo de energia e dificuldade de implementação em dispositivos com recursos limitados. Um modelo leve garante um desempenho suave, especialmente para aplicações em tempo real e de ponta.

Velocidade vs. precisão: otimizar as inferências em tempo real

Embora existam várias técnicas para reduzir a latência, uma parte fundamental das inferências em tempo real é o equilíbrio entre velocidade e precisão. Tornar os modelos mais rápidos não é suficiente - a velocidade de inferência tem de ser optimizada sem comprometer a precisão. Um sistema que produz previsões rápidas mas incorrectas é ineficaz. É por isso que os testes exaustivos são vitais para garantir que os modelos funcionam bem em situações do mundo real. Um sistema que parece rápido durante os testes, mas que falha em condições reais, não está verdadeiramente optimizado.

Aplicações de IA de visão que tiram partido das inferências em tempo real

Em seguida, vamos analisar algumas aplicações do mundo real em que a inferência em tempo real está a transformar as indústrias, permitindo respostas instantâneas a dados visuais.

Sistemas de auto-pagamento em lojas de retalho

Os modelos de visão por computador, como o YOLO11 , podem ajudar a melhorar os sistemas de auto-checkout, tornando o reconhecimento de itens mais rápido e mais preciso. O suporte do YOLO11 para várias tarefas de visão por computador, como a deteção de objectos e a segmentação de instâncias, torna possível identificar produtos mesmo que os códigos de barras estejam em falta ou danificados. A IA de visão pode reduzir a necessidade de introdução manual e acelerar o processo de checkout.

Para além da identificação de produtos, a visão por computador também pode ser integrada em sistemas de self-checkout para verificar preços, evitar fraudes e aumentar a conveniência do cliente. As câmaras alimentadas por IA podem distinguir automaticamente entre produtos semelhantes e detetar comportamentos suspeitos na caixa. Isso inclui a identificação de "não verificações", em que um cliente ou caixa perde um item sem querer, e tentativas de fraude mais deliberadas, como "troca de produto", em que um código de barras mais barato é colocado sobre um item mais caro.

Fig. 4. A IA pode melhorar os balcões de auto-pagamento.

‍

Um grande exemplo disto é a Kroger, um grande retalhista dos EUA, que integrou a visão computacional e a IA nos seus sistemas de self-checkout. Utilizando a análise de vídeo em tempo real, a Kroger conseguiu corrigir automaticamente mais de 75% dos erros de caixa, melhorando a experiência do cliente e as operações da loja.

Inspeção da qualidade através da visão por computador

A inspeção manual de produtos para controlo de qualidade pode ser lenta e nem sempre precisa. É por isso que cada vez mais fabricantes estão a mudar para fluxos de trabalho de inspeção visual que utilizam a visão por computador para detetar defeitos mais cedo no processo de produção.

As câmaras de alta resolução e a IA de visão podem detetar pequenas falhas que podem passar despercebidas aos humanos, e modelos como o YOLO11 podem ajudar com verificações de qualidade em tempo real, classificação e contagem para garantir que apenas os produtos perfeitos chegam aos clientes. Automatizar este processo poupa tempo, corta custos e reduz o desperdício, tornando a produção mais suave e mais eficiente.

Fig. 5. Um exemplo de utilização do YOLO11 para contar produtos numa linha de montagem.

‍

Principais conclusões

A inferência em tempo real ajuda os modelos de IA a tomar decisões instantâneas, o que é crucial em muitos sectores. Quer se trate de um carro autónomo que evita um acidente, de um médico que analisa rapidamente exames médicos ou de uma fábrica que detecta defeitos nos produtos, as respostas rápidas e precisas da IA fazem uma grande diferença.

Ao melhorar a velocidade e a eficiência dos modelos de IA, podemos criar sistemas mais inteligentes e fiáveis que funcionam sem problemas em situações do mundo real. À medida que a tecnologia avança, as soluções de IA em tempo real continuarão a moldar o futuro, tornando os processos quotidianos mais rápidos, mais seguros e mais eficientes.

Para saber mais, visita o nosso repositório GitHub e participa na nossa comunidade. Explora inovações em sectores como a IA em carros autónomos e a visão computacional na agricultura nas nossas páginas de soluções. Vê as nossas opções de licenciamento e dá vida aos teus projectos de IA de visão.

As inferências em tempo real nas soluções Vision AI estão a ter impacto

O que é uma inferência de IA?

Compreender os motores de inferência

Problemas causados pela latência da inferência