Tudo o que precisa de saber sobre a visão computacional em 2025

Abirami Vina

5 min. de leitura

15 de janeiro de 2025

Descubra como a visão computacional está a transformar as indústrias com tarefas alimentadas por IA, como a deteção de objectos, a classificação de imagens e a estimativa de pose.

Há vinte anos, a ideia de máquinas e computadores capazes de ver e compreender o mundo era apenas ficção científica. Atualmente, graças aos avanços da inteligência artificial (IA), esse conceito tornou-se uma realidade. Em particular, a visão por computador (CV), um ramo da IA, permite que as máquinas compreendam e analisem imagens e vídeos. Quer se trate de identificar objectos em tempo real, melhorar os sistemas de segurança ou automatizar tarefas complexas, o seu potencial está a ultrapassar os limites do que é possível. 

A visão por computador está a moldar rapidamente o futuro da tecnologia, à medida que várias indústrias exploram diferentes formas de adotar as suas capacidades únicas. A dimensão do mercado global da tecnologia de visão por computador atingiu 19,83 mil milhões de dólares em 2024 e prevê-se um crescimento anual de 19,8% nos próximos anos.

__wf_reserved_inherit
Fig. 1. Dimensão do mercado mundial da visão por computador.

Neste artigo, vamos analisar mais detalhadamente a visão por computador, explicando o que é, como evoluiu e como funciona atualmente. Iremos também explorar algumas das suas aplicações mais interessantes. Vamos começar!

O que é a visão computacional?

A visão computacional é um subcampo da IA que utiliza a aprendizagem automática e as redes neuronais para ensinar os computadores a compreender o conteúdo de dados visuais, como imagens ou ficheiros de vídeo. Os conhecimentos recolhidos a partir de imagens processadas podem ser utilizados para tomar melhores decisões. Por exemplo, a visão por computador pode ser utilizada no retalho para controlar os níveis de inventário através da análise de imagens de prateleiras ou para melhorar a experiência de compra com sistemas de caixa automatizados. Muitas empresas já estão a utilizar a tecnologia de visão por computador para diferentes aplicações que vão desde tarefas como a adição de filtros a fotografias de smartphones até ao controlo de qualidade no fabrico. 

Poderá estar a perguntar-se: porque é que há tanta necessidade de soluções de visão computacional? As tarefas que exigem atenção constante, como detetar defeitos ou reconhecer padrões, podem ser difíceis para os seres humanos. Os olhos podem cansar-se e os pormenores podem passar despercebidos, especialmente em ambientes de ritmo acelerado ou complexos. 

Embora as pessoas sejam boas a reconhecer objectos em diferentes tamanhos, cores, iluminação ou ângulos, muitas vezes têm dificuldade em manter a consistência sob pressão. As soluções de visão por computador, por outro lado, trabalham sem parar, processando com rapidez e precisão grandes quantidades de dados visuais. Por exemplo, podem analisar o tráfego em tempo real para detetar congestionamentos, otimizar a temporização dos sinais ou mesmo identificar acidentes mais rapidamente do que um observador humano poderia fazer.

Compreender a história da visão por computador

Ao longo dos anos, a visão por computador evoluiu de um conceito teórico para uma tecnologia fiável que impulsiona a inovação em todos os sectores. Vejamos alguns dos principais marcos que definiram o seu desenvolvimento:

  • Décadas de 1950 e 1960: Os investigadores começaram a desenvolver algoritmos para processar e analisar dados visuais, mas os progressos foram lentos devido ao poder computacional limitado.
  • 1970s: Esta década assistiu a grandes melhorias nos algoritmos, como a Transformada de Hough, que melhorou a deteção de linhas e formas geométricas nas imagens. Surgiu também o Reconhecimento Ótico de Caracteres (OCR), que tornou possível a leitura de texto impresso por máquinas.
  • Décadas de 1980 e 1990: A aprendizagem automática começou a desempenhar um papel na visão por computador, abrindo caminho para capacidades mais avançadas e descobertas futuras.
  • Década de 2000 - Década de 2010: A aprendizagem profunda trouxe uma nova dimensão à visão computacional, equipando as máquinas para interpretar os dados visuais de forma mais eficaz. Melhorou capacidades como a identificação de objectos, a análise de movimentos e a execução de tarefas complexas.

Atualmente, a visão computacional está a avançar rapidamente e a transformar a forma como resolvemos problemas em áreas como os cuidados de saúde, os veículos autónomos e as cidades inteligentes. Os modelos YOLO (You Only Look Once) da Ultralytics, concebidos para tarefas de visão computacional em tempo real, facilitam a implementação eficaz e precisa da IA de visão em vários sectores. À medida que a IA e o hardware continuam a melhorar, estes modelos estão a ajudar as empresas a tomar decisões mais inteligentes e a simplificar as operações através da utilização de análises de dados visuais avançadas.

Como funciona a visão por computador

Os sistemas de visão por computador funcionam utilizando redes neuronais, que são algoritmos inspirados na forma como o cérebro humano funciona, para analisar imagens. Um tipo específico, designado por Redes Neuronais Convolucionais (CNN), é especialmente adequado para reconhecer padrões, como arestas e formas em imagens. 

Para simplificar os dados visuais, técnicas como o pooling concentram-se nas partes mais importantes de uma imagem, enquanto camadas adicionais processam esta informação para realizar tarefas como a identificação de caraterísticas ou a deteção de objectos. Modelos avançados como o Ultralytics YOLO11, concebidos para velocidade e precisão, tornam possível o processamento de imagens em tempo real.

__wf_reserved_inherit
Fig. 2. Um exemplo de utilização do Ultralytics YOLO11 para a deteção de objectos.

Uma aplicação típica de visão por computador envolve várias etapas para transformar imagens em bruto em informações úteis. Eis as quatro fases principais:

  • Aquisição de imagens: Os dados visuais são recolhidos através de câmaras ou sensores, e a qualidade das imagens depende do tipo de sensor utilizado.
  • Processamento de imagens: Os dados recolhidos são depois melhorados através de técnicas de pré-processamento, como a redução do ruído e o realce das arestas, para facilitar a análise.
  • Extração de caraterísticas: Os detalhes importantes, como formas e texturas, são selecionados, concentrando-se nas partes da imagem que mais interessam.  
  • Reconhecimento de padrões: As caraterísticas identificadas são analisadas utilizando a aprendizagem automática para realizar tarefas como a deteção de objectos, o seguimento de movimentos ou o reconhecimento de padrões.

Explorar tarefas de visão computacional

Deve ter reparado que, ao falarmos sobre o funcionamento da visão computacional, mencionámos tarefas de visão computacional. Modelos como o Ultralytics YOLO11 foram criados para suportar estas tarefas, oferecendo soluções rápidas e precisas para aplicações do mundo real. Desde a deteção de objectos até ao seguimento do seu movimento, o YOLO11 lida com estas tarefas de forma eficiente. Vamos explorar algumas das principais tarefas de visão computacional que ele suporta e como elas funcionam.

Deteção de objectos

A deteção de objectos é uma tarefa fundamental da visão computacional e é utilizada para identificar objectos de interesse numa imagem. O resultado de uma tarefa de deteção de objectos é um conjunto de caixas delimitadoras (rectângulos desenhados à volta dos objectos detectados numa imagem), juntamente com rótulos de classe (a categoria ou tipo de cada objeto, como "carro" ou "pessoa") e pontuações de confiança (um valor numérico que indica o grau de certeza do modelo em relação a cada deteção). Por exemplo, a deteção de objectos pode ser utilizada para identificar e apontar a localização de um peão numa rua ou de um carro no trânsito.

__wf_reserved_inherit
Fig. 3. YOLO11 a ser utilizado para detetar objectos.

Classificação de imagens

O principal objetivo da classificação de imagens é atribuir uma etiqueta ou categoria predefinida a uma imagem de entrada com base no seu conteúdo geral. Esta tarefa envolve normalmente a identificação do objeto ou caraterística dominante na imagem. Por exemplo, a classificação de imagens pode ser utilizada para determinar se uma imagem contém um gato ou um cão. Os modelos de visão por computador, como o YOLO11, podem até ser treinados à medida para classificar raças individuais de gatos ou cães, como se mostra abaixo.

__wf_reserved_inherit
Fig. 4. Classificação de diferentes raças de gatos utilizando o YOLO11.

Segmentação de instâncias

A segmentação de instâncias é outra tarefa crucial da visão por computador utilizada em várias aplicações. Envolve a divisão de uma imagem em segmentos e a identificação de cada objeto individual, mesmo que existam vários objectos do mesmo tipo. Ao contrário da deteção de objectos, a segmentação de instâncias vai um passo mais além, delineando os limites precisos de cada objeto. Por exemplo, no fabrico e reparação de automóveis, a segmentação de instâncias pode ajudar a identificar e rotular cada peça do automóvel separadamente, tornando o processo mais preciso e eficiente.

__wf_reserved_inherit
Fig. 5. Segmentação de peças de automóveis utilizando YOLO11.

Estimativa de pose

O objetivo da estimativa de pose é determinar a posição e a orientação de uma pessoa ou objeto, prevendo a localização de pontos-chave, como as mãos, a cabeça e os cotovelos. Isto é particularmente útil em aplicações em que é importante compreender as acções físicas em tempo real. A estimativa da pose humana é normalmente utilizada em áreas como a análise desportiva, a monitorização do comportamento animal e a robótica.

__wf_reserved_inherit
Fig. 6. O YOLO11 pode ajudar a estimar a pose humana.

Para explorar as outras tarefas de visão computacional suportadas pelo YOLO11, pode consultar a documentação oficial do Ultralytics. Esta fornece informações pormenorizadas sobre a forma como o YOLO11 lida com tarefas como o seguimento de objectos e a deteção de objectos com caixa delimitadora orientada (OBB).

Modelos de visão computacional populares atualmente

Apesar de existirem muitos modelos de visão por computador, a série Ultralytics YOLO destaca-se pelo seu forte desempenho e versatilidade. Ao longo do tempo, os modelos Ultralytics YOLO foram melhorando, tornando-se mais rápidos, mais precisos e capazes de lidar com mais tarefas. Quando o Ultralytics YOLOv5 foi introduzido, a implementação de modelos tornou-se mais fácil com estruturas Vision AI como o PyTorch. Permite que um maior número de utilizadores trabalhe com IA de visão avançada, combinando elevada precisão com facilidade de utilização.

Em seguida, o Ultralytics YOLOv8 foi mais longe, acrescentando novas capacidades como a segmentação de instâncias, a estimativa de pose e a classificação de imagens. Entretanto, a versão mais recente, YOLO11, oferece um desempenho de topo em várias tarefas de visão computacional. Com menos 22% de parâmetros do que o YOLOv8m, o YOLO11m atinge uma precisão média superior (mAP) no conjunto de dados COCO, o que significa que consegue detetar objectos de forma mais precisa e eficiente. Quer seja um programador experiente ou um novato em IA, o YOLO11 oferece uma solução poderosa para as suas necessidades de visão computacional.

O papel da visão computacional na vida quotidiana

Anteriormente, discutimos como os modelos de visão por computador como o YOLO11 podem ser aplicados numa vasta gama de indústrias. Agora, vamos explorar mais casos de utilização que estão a mudar o nosso quotidiano.

Visão da IA nos cuidados de saúde

Existe uma vasta gama de aplicações para a visão computacional nos cuidados de saúde. Tarefas como a deteção e classificação de objectos são utilizadas na imagiologia médica para tornar a deteção de doenças mais rápida e mais precisa. Na análise de raios X, a visão por computador pode identificar padrões que podem ser demasiado subtis para o olho humano. 

É também utilizada na deteção do cancro para comparar as células cancerosas com as saudáveis. Do mesmo modo, no que respeita às tomografias computorizadas e às ressonâncias magnéticas, a visão por computador pode ser utilizada para analisar imagens com uma precisão quase humana. Ajuda os médicos a tomar melhores decisões e, em última análise, a salvar mais vidas.

__wf_reserved_inherit
Fig. 7. YOLO11 a ser utilizado para analisar exames médicos.

A IA na indústria automóvel

A visão por computador é fundamental para os automóveis autónomos, ajudando-os a detetar objectos como sinais de trânsito e semáforos. Técnicas como o reconhecimento ótico de caracteres (OCR) permitem que o automóvel leia o texto dos sinais de trânsito. É também utilizada para a deteção de peões, em que as tarefas de deteção de objectos identificam pessoas em tempo real. 

Além disso, a visão computacional pode até detetar fissuras e buracos nas superfícies das estradas, permitindo uma melhor monitorização das condições das estradas em mudança. Globalmente, a tecnologia de visão computacional pode desempenhar um papel fundamental na melhoria da gestão do tráfego, no aumento da segurança do trânsito e no apoio ao planeamento inteligente das cidades.

__wf_reserved_inherit
Fig. 8. Compreensão do tráfego com YOLO11.

Visão computacional na agricultura

Imaginemos que os agricultores podiam semear, regar e colher automaticamente as suas colheitas a tempo e sem preocupações. É exatamente isso que a visão computacional traz à agricultura. Facilita a monitorização das culturas em tempo real para que os agricultores possam detetar problemas como doenças ou deficiências de nutrientes com mais precisão do que os humanos. 

Para além da monitorização, as máquinas de monda automáticas orientadas por IA e integradas com visão computacional podem identificar e remover ervas daninhas, reduzindo os custos de mão de obra e aumentando o rendimento das culturas. Esta combinação de tecnologia ajuda os agricultores a otimizar os seus recursos, a melhorar a eficiência e a proteger as suas culturas.

__wf_reserved_inherit
Fig. 9. Um exemplo de utilização do YOLO11 na agricultura.

Automatizar os processos de fabrico com a IA

No fabrico, a visão por computador ajuda a monitorizar a produção, a verificar a qualidade do produto e a seguir os trabalhadores automaticamente. A IA de visão torna o processo mais rápido e mais preciso, ao mesmo tempo que reduz os erros, levando à redução dos custos. 

Especificamente, para a garantia de qualidade, a deteção de objectos e a segmentação de instâncias são normalmente utilizadas. Os sistemas de deteção de defeitos efectuam um controlo final dos produtos acabados para garantir que apenas os melhores chegam aos clientes. Qualquer produto com amolgadelas ou fissuras é automaticamente identificado e rejeitado. Estes sistemas também rastreiam e contam os produtos em tempo real, proporcionando uma monitorização contínua na linha de montagem.

__wf_reserved_inherit
Fig. 10. Monitorização de uma linha de montagem utilizando a visão por computador.

A educação tornou-se mais impactante com a visão computacional

Uma das formas de utilização da visão computacional na sala de aula é através do reconhecimento de gestos - personaliza a aprendizagem através da deteção dos movimentos dos alunos. Modelos como o YOLO11 são óptimos para esta tarefa. Conseguem identificar com precisão gestos como mãos levantadas ou expressões confusas em tempo real. 

Quando esses gestos são detectados, uma aula em curso pode ser ajustada, fornecendo ajuda adicional ou modificando o conteúdo para melhor se adaptar às necessidades do aluno. Isto cria um ambiente de aprendizagem mais dinâmico e adaptável, ajudando os professores a concentrarem-se no ensino enquanto o sistema apoia a experiência de aprendizagem de cada aluno.

Tendências recentes na visão computacional

Agora que explorámos algumas das aplicações da visão computacional em vários sectores, vamos mergulhar nas principais tendências que impulsionam o seu progresso.

Uma das principais tendências é a computação periférica, uma estrutura de computação distribuída que processa os dados mais perto da sua fonte. Por exemplo, a computação periférica equipa dispositivos como câmaras e sensores para processar diretamente dados visuais, o que resulta em tempos de resposta mais rápidos, atrasos reduzidos e maior privacidade.

Outra tendência fundamental na visão computacional é a utilização da realidade combinada. Esta combina o mundo físico com elementos digitais, utilizando a visão por computador para fazer com que os objectos virtuais se misturem suavemente com o mundo real. Pode ser utilizada para melhorar as experiências em jogos, educação e formação. 

Prós e contras da visão computacional

Eis alguns dos principais benefícios que a visão computacional pode trazer para vários sectores:

  • Economia de custos: A automatização de tarefas com visão computacional ajuda a reduzir os custos operacionais, melhorar a produtividade e minimizar os erros.
  • Escalabilidade: Uma vez implementados, os sistemas de visão computacional podem ser facilmente escalados para lidar com grandes quantidades de dados, tornando-os adequados para empresas em crescimento ou operações em grande escala.
  • Personalização específica da aplicação: Os modelos de visão por computador podem ser ajustados com precisão utilizando o seu conjunto de dados, proporcionando-lhe soluções altamente especializadas que satisfazem os requisitos da sua aplicação.

Embora esses benefícios destaquem o impacto que a visão computacional pode ter em vários sectores, também é importante considerar os desafios envolvidos na sua implementação. Aqui estão alguns dos principais desafios:

  • Preocupações com a privacidade dos dados: A utilização de dados visuais, especialmente em áreas sensíveis como a vigilância ou os cuidados de saúde, pode levantar questões de privacidade e de segurança.
  • Limitações ambientais: Os sistemas de visão por computador podem ter dificuldade em funcionar corretamente em ambientes difíceis, como iluminação deficiente, imagens de baixa qualidade ou fundos complexos.
  • Custo inicial elevado: O desenvolvimento e a implementação de sistemas de visão computacional podem ser dispendiosos devido à necessidade de hardware, software e conhecimentos especializados.

Principais conclusões

A visão por computador está a reinventar a forma como as máquinas interagem com o mundo, permitindo-lhes ver e compreender o mundo como os humanos. Já está a ser utilizada em muitas áreas, como a melhoria da segurança em carros autónomos, ajudando os médicos a diagnosticar doenças mais rapidamente, tornando as compras mais personalizadas e até ajudando os agricultores a monitorizar as colheitas. 

À medida que a tecnologia continua a melhorar, novas tendências como a computação de ponta e a realidade fundida estão a abrir ainda mais possibilidades. Embora existam alguns desafios, como preconceitos e custos elevados, a visão por computador tem potencial para ter um enorme impacto positivo em muitos sectores no futuro.

Para saber mais, visite o nosso repositório GitHub e participe na nossa comunidade. Explore inovações em sectores como a IA em carros autónomos e a visão computacional na agricultura nas nossas páginas de soluções. 🚀

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência