Verificação verde
Link copiado para a área de transferência

A evolução da deteção de objectos e Ultralytics' YOLO Models

Junta-te a nós para analisarmos a evolução da deteção de objectos. Vamos concentrar-nos na forma como os modelos YOLO (You Only Look Once) avançaram nos últimos anos.

A visão por computador é um subcampo da inteligência artificial (IA) que se centra em ensinar as máquinas a ver e a compreender imagens e vídeos, à semelhança da forma como os humanos percepcionam o mundo real. Embora o reconhecimento de objectos ou a identificação de acções seja uma segunda natureza para os humanos, estas tarefas requerem técnicas específicas e especializadas de visão por computador quando se trata de máquinas. Por exemplo, uma tarefa fundamental na visão computacional é a deteção de objectos, que envolve a identificação e localização de objectos em imagens ou vídeos. 

Desde os anos 60, os investigadores têm trabalhado para melhorar a forma como os computadores podem detetar objectos. Os primeiros métodos, como a correspondência de modelos, envolviam o deslizamento de um modelo predefinido numa imagem para encontrar correspondências. Apesar de inovadoras, estas abordagens tinham dificuldade em lidar com alterações no tamanho, orientação e iluminação dos objectos. Atualmente, dispomos de modelos avançados como o Ultralytics YOLO11 que conseguem detetar até objectos pequenos e parcialmente ocultos, conhecidos como objectos ocluídos, com uma precisão impressionante.

À medida que a visão por computador continua a evoluir, é importante olhar para trás e ver como estas tecnologias se desenvolveram. Neste artigo, vamos explorar a evolução da deteção de objectos e analisar a transformação dos modelosYOLO (You Only Look Once). Toca a começar!

As origens da visão computacional

Antes de nos debruçarmos sobre a deteção de objectos, vamos ver como começou a visão por computador. As origens da visão por computador remontam ao final dos anos 50 e início dos anos 60, quando os cientistas começaram a explorar a forma como o cérebro processa a informação visual. Em experiências com gatos, os investigadores David Hubel e Torsten Wiesel descobriram que o cérebro reage a padrões simples como arestas e linhas. Isto constituiu a base para a ideia subjacente à extração de caraterísticas - o conceito de que os sistemas visuais detectam e reconhecem caraterísticas básicas nas imagens, como arestas, antes de passarem a padrões mais complexos.

Figura 1. Aprender como o cérebro de um gato reage a barras de luz ajudou a desenvolver a extração de caraterísticas na visão por computador.

Na mesma altura, surgiram novas tecnologias capazes de transformar imagens físicas em formatos digitais, despertando o interesse pela forma como as máquinas poderiam processar a informação visual. Em 1966, o Projeto de Visão de verão do Instituto de Tecnologia de Massachusetts (MIT) levou as coisas mais longe. Embora o projeto não tenha sido totalmente bem sucedido, o seu objetivo era criar um sistema que pudesse separar o primeiro plano do fundo das imagens. Para muitos membros da comunidade da IA de visão, este projeto marca o início oficial da visão por computador como área científica.

Compreender a história da deteção de objectos

Com o avanço da visão computacional no final dos anos 90 e início dos anos 2000, os métodos de deteção de objectos passaram de técnicas básicas como a correspondência de modelos para abordagens mais avançadas. Um método popular foi o Haar Cascade, que se tornou amplamente utilizado para tarefas como a deteção de rostos. Funciona digitalizando imagens com uma janela deslizante, verificando caraterísticas específicas como arestas ou texturas em cada secção da imagem e, em seguida, combinando essas caraterísticas para detetar objectos como rostos. O Haar Cascade era muito mais rápido do que os métodos anteriores.

Figura 2. Utiliza o Haar Cascade para a deteção de rostos.

A par destes, foram também introduzidos métodos como o Histograma de Gradientes Orientados (HOG) e as Máquinas de Vectores de Suporte (SVM). O HOG utilizou a técnica da janela deslizante para analisar a forma como a luz e as sombras mudavam em pequenas secções de uma imagem, ajudando a identificar objectos com base nas suas formas. As SVMs classificavam então estas caraterísticas para determinar a identidade do objeto. Estes métodos melhoraram a precisão, mas continuavam a ter dificuldades em ambientes reais e eram mais lentos em comparação com as técnicas actuais.

A necessidade de deteção de objectos em tempo real

Na década de 2010, a ascensão da aprendizagem profunda e das Redes Neuronais Convolucionais (CNN) trouxe uma grande mudança na deteção de objectos. As CNNs permitiram aos computadores aprender automaticamente caraterísticas importantes a partir de grandes quantidades de dados, o que tornou a deteção muito mais precisa. 

Os primeiros modelos, como o R-CNN (Redes Neuronais Convolucionais baseadas na Região), foram uma grande melhoria em termos de precisão, ajudando a identificar objectos com maior exatidão do que os métodos mais antigos. 

No entanto, estes modelos eram lentos porque processavam as imagens em várias fases, o que os tornava impraticáveis para aplicações em tempo real em áreas como os carros autónomos ou a vigilância por vídeo.

Com o objetivo de acelerar o processo, foram desenvolvidos modelos mais eficientes. Modelos como o Fast R-CNN e o Faster R-CNN ajudaram a refinar a forma como as regiões de interesse eram escolhidas e a reduzir o número de passos necessários para a deteção. Embora isto tenha tornado a deteção de objectos mais rápida, ainda não era suficientemente rápida para muitas aplicações do mundo real que necessitavam de resultados imediatos. A crescente procura de deteção em tempo real levou ao desenvolvimento de soluções ainda mais rápidas e eficientes que pudessem equilibrar velocidade e precisão.

Figura 3. Compara as velocidades de R-CNN, Fast R-CNN e Faster R-CNN.

YOLO Modelos (You Only Look Once): Um marco importante

YOLO é um modelo de deteção de objectos que redefiniu a visão por computador ao permitir a deteção em tempo real de vários objectos em imagens e vídeos, tornando-o único em relação aos métodos de deteção anteriores. Em vez de analisar cada objeto detectado individualmente, a arquitetura doYOLO trata a deteção de objectos como uma tarefa única, prevendo a localização e a classe dos objectos de uma só vez utilizando CNNs. 

O modelo funciona dividindo uma imagem numa grelha, sendo cada parte responsável pela deteção de objectos na sua respectiva área. Faz várias previsões para cada secção e filtra os resultados menos confiantes, mantendo apenas os mais precisos. 

Figura 4. Uma visão geral do funcionamento do YOLO .

A introdução do YOLO nas aplicações de visão por computador tornou a deteção de objectos muito mais rápida e eficiente do que os modelos anteriores. Devido à sua velocidade e precisão, o YOLO tornou-se rapidamente uma escolha popular para soluções em tempo real em sectores como o fabrico, os cuidados de saúde e a robótica.

Outro ponto importante a salientar é que, uma vez que o YOLO era de código aberto, os programadores e investigadores puderam melhorá-lo continuamente, conduzindo a versões ainda mais avançadas.

O caminho de YOLO para YOLO11

YOLO têm vindo a ser constantemente melhorados ao longo do tempo, com base nos avanços de cada versão. Para além de um melhor desempenho, estas melhorias tornaram os modelos mais fáceis de utilizar por pessoas com diferentes níveis de experiência técnica.

Por exemplo, quando o Ultralytics YOLOv5 foi introduzido, a implementação de modelos tornou-se mais simples com o PyTorchpermitindo a um maior número de utilizadores trabalhar com IA avançada. Reuniu precisão e facilidade de utilização, dando a mais pessoas a capacidade de implementar a deteção de objectos sem terem de ser especialistas em programação.

Fig. 5. Evolução dos modelos YOLO .

Ultralytics YOLOv8 continuou este progresso, adicionando suporte para tarefas como a segmentação de instâncias e tornando os modelos mais flexíveis. Tornou-se mais fácil utilizar YOLO tanto para aplicações básicas como para aplicações mais complexas, tornando-o útil numa série de cenários.

Com o modelo mais recente, Ultralytics YOLO11foram efectuadas mais optimizações. Ao reduzir o número de parâmetros e ao mesmo tempo melhorar a precisão, é agora mais eficiente para tarefas em tempo real. Quer sejas um programador experiente ou um novato em IA, o YOLO11 oferece uma abordagem avançada à deteção de objectos que é facilmente acessível.

Conhecer YOLO11: Novas funcionalidades e melhorias

YOLO11, lançado no evento híbrido anual Ultralytics', YOLO Vision 2024 (YV24), suporta as mesmas tarefas de visão computacional que o YOLOv8, como deteção de objectos, segmentação de instâncias, classificação de imagens e estimativa de pose. Assim, os utilizadores podem mudar facilmente para este novo modelo sem terem de ajustar os seus fluxos de trabalho. Além disso, a arquitetura actualizada do YOLO11torna as previsões ainda mais precisas. De facto, o YOLO11m atinge uma precisão média superior (mAP) no conjunto de dados COCO com menos 22% de parâmetros do que o YOLOv8m.

YOLO11 também foi concebido para funcionar de forma eficiente numa série de plataformas, desde smartphones e outros dispositivos periféricos até sistemas de nuvem mais potentes. Esta flexibilidade garante um desempenho suave em diferentes configurações de hardware para aplicações em tempo real. Além disso, o YOLO11 é mais rápido e mais eficiente, reduzindo os custos computacionais e acelerando os tempos de inferência. Quer estejas a utilizar o pacoteUltralytics Python ou o HUB sem código Ultralytics , é fácil de integrar YOLO11 nos teus fluxos de trabalho existentes.

O futuro dos modelos YOLO e da deteção de objectos

O impacto da deteção avançada de objectos nas aplicações em tempo real e na IA de ponta já se faz sentir em todas as indústrias. À medida que sectores como o petróleo e o gás, os cuidados de saúde e o retalho dependem cada vez mais da IA, a procura de uma deteção de objectos rápida e precisa continua a aumentar. O YOLO11 visa responder a esta procura, permitindo uma deteção de elevado desempenho, mesmo em dispositivos com poder de computação limitado. 

À medida que a IA de ponta cresce, é provável que os modelos de deteção de objectos como o YOLO11 se tornem ainda mais essenciais para a tomada de decisões em tempo real em ambientes onde a velocidade e a precisão são fundamentais. Com melhorias contínuas no design e na adaptabilidade, o futuro da deteção de objectos parece destinado a trazer ainda mais inovações numa variedade de aplicações.

Principais conclusões

A deteção de objectos tem percorrido um longo caminho, evoluindo de métodos simples para as técnicas avançadas de aprendizagem profunda que vemos hoje. YOLO modelos têm estado no centro deste progresso, proporcionando uma deteção em tempo real mais rápida e precisa em diferentes indústrias. YOLO11 baseia-se neste legado, melhorando a eficiência, reduzindo os custos computacionais e aumentando a precisão, tornando-o uma escolha fiável para uma variedade de aplicações em tempo real. Com os avanços contínuos em IA e visão computacional, o futuro da deteção de objectos parece brilhante, com espaço para ainda mais melhorias na velocidade, precisão e adaptabilidade.

Tens curiosidade sobre a IA? Mantém-te ligado à nossa comunidade para continuares a aprender! Consulta o nosso repositório GitHub para descobrires como estamos a utilizar a IA para criar soluções inovadoras em setores como o fabrico e os cuidados de saúde. 🚀

Logótipo do FacebookLogótipo do TwitterLogótipo do LinkedInSímbolo de ligação de cópia

Ler mais nesta categoria

Vamos construir juntos o futuro
da IA!

Começa a tua viagem com o futuro da aprendizagem automática