Verificação verde
Link copiado para a área de transferência

Comparação entre Ultralytics YOLO11 e os modelos YOLO anteriores

Compara os modelos Ultralytics YOLOv8, YOLOv9, YOLOv10 e Ultralytics YOLO11 para compreenderes como estes modelos evoluíram e melhoraram de 2023 para 2025.

Desde a automatização de tarefas diárias até à ajuda na tomada de decisões informadas em tempo real, a inteligência artificial (IA) está a remodelar o futuro de várias indústrias. Uma área particularmente fascinante da IA é a visão por computador, também conhecida como IA de visão. Centra-se em permitir que as máquinas analisem e interpretem dados visuais como os humanos. 

Especificamente, os modelos de visão computacional estão a impulsionar inovações que aumentam a segurança e a eficiência. Por exemplo, estes modelos são utilizados em carros autónomos para detetar peões e em câmaras de segurança para monitorizar instalações 24 horas por dia. 

Alguns dos modelos de visão por computador mais conhecidos são os modelos YOLO (You Only Look Once), conhecidos pelas suas capacidades de deteção de objectos em tempo real. Ao longo do tempo, os modelos YOLO foram melhorados, com cada nova versão a oferecer melhor desempenho e mais flexibilidade.

Versões mais recentes como Ultralytics YOLO11 podem lidar com uma variedade de tarefas, como a segmentação de instâncias, a classificação de imagens, a estimativa de pose e o seguimento de vários objectos, com maior exatidão, velocidade e precisão do que nunca.

Neste artigo, vamos comparar Ultralytics YOLOv8YOLOv9, YOLOv10 e Ultralytics YOLO11 para teres uma ideia melhor de como estes modelos evoluíram. Analisaremos as suas principais caraterísticas, resultados de benchmark e diferenças de desempenho. Vamos começar!

Uma visão geral do Ultralytics YOLOv8

YOLOv8, lançado pela Ultralytics a 10 de janeiro de 2023, foi um grande passo em frente em comparação com os modelos YOLO anteriores. Está optimizado para uma deteção precisa e em tempo real, combinando abordagens bem testadas com actualizações inovadoras para obter melhores resultados.

Para além da deteção de objectos, também suporta as seguintes tarefas de visão computacional: segmentação de instâncias, estimativa de pose, deteção de objectos OBB (oriented bounding boxes) e classificação de imagens. Outra caraterística importante do YOLOv8 é que está disponível em cinco variantes de modelos diferentes - Nano, Small, Medium, Large e X - para que possas escolher o equilíbrio certo entre velocidade e precisão com base nas tuas necessidades.

Devido à sua versatilidade e forte desempenho, YOLOv8 pode ser utilizado em muitas aplicações do mundo real, como sistemas de segurança, cidades inteligentes, cuidados de saúde e automação industrial.

Fig. 1. Gestão de estacionamento em cidades inteligentes com YOLOv8.

Principais caraterísticas do YOLOv8

Vê mais de perto algumas das outras caraterísticas principais do YOLOv8:

  • Arquitetura de deteção melhorada: YOLOv8 utiliza um backbone CSPDarknet melhorado. Este backbone está optimizado para a extração de caraterísticas - o processo de identificação e captura de padrões ou detalhes importantes das imagens de entrada que ajudam o modelo a fazer previsões precisas.

  • Cabeça de deteção: Utiliza um design sem âncoras e dissociado, o que significa que não depende de formas de caixa delimitadora predefinidas (âncoras) e, em vez disso, aprende a prever diretamente as localizações dos objectos. Devido à configuração dissociada, as tarefas de classificação do objeto e de previsão da sua localização (regressão) são tratadas separadamente, o que ajuda a melhorar a precisão e acelera o treino.

  • Equilibra precisão e velocidade: este modelo atinge uma precisão impressionante, mantendo tempos de inferência rápidos, o que o torna adequado para ambientes de nuvem e de borda.

  • Fácil de utilizar: YOLOv8 foi concebido para ser fácil de utilizar - podes começar a prever e a ver resultados em apenas alguns minutos utilizando o pacoteUltralytics Python .

O YOLOv9 centra-se na eficiência computacional

O YOLOv9 foi lançado em 21 de fevereiro de 2024, por Chien-Yao Wang e Hong-Yuan Mark Liao do Instituto de Ciência da Informação, Academia Sinica, Taiwan. Suporta tarefas como a deteção de objectos e a segmentação de instâncias

Este modelo baseia-se em Ultralytics YOLOv5 e introduz duas grandes inovações: Programmable Gradient Information (PGI) e Generalized Efficient Layer Aggregation Network (GELAN). 

O PGI ajuda o YOLOv9 a reter informações importantes à medida que processa os dados através das suas camadas, o que conduz a resultados mais precisos. Entretanto, o GELAN melhora a forma como o modelo utiliza as suas camadas, aumentando o desempenho e a eficiência computacional. Graças a estas actualizações, o YOLOv9 pode lidar com tarefas em tempo real em dispositivos periféricos e aplicações móveis, onde os recursos de computação são frequentemente limitados.

Figura 2. Compreende como o GELAN melhora a precisão do YOLOv9.

Principais caraterísticas do YOLOv9

Vê aqui algumas das outras caraterísticas principais do YOLOv8:

  • Alta precisão com eficiência: O YOLOv9 proporciona uma elevada precisão de deteção sem consumir muito poder de computação, o que o torna uma óptima escolha quando os recursos são limitados.
  • Modelos leves: As variantes do modelo leve do YOLOv9 são otimizadas para implantações de ponta e móveis.
  • Fácil de utilizar: O YOLOv9 é suportado pelo pacote Ultralytics Python , pelo que é simples de configurar e executar em diferentes ambientes, quer estejas a utilizar código ou a linha de comandos.

O YOLOv10 permite a deteção de objectos sem NMS

O YOLOv10 foi introduzido em 23 de maio de 2024 por investigadores da Universidade de Tsinghua e centra-se na deteção de objectos em tempo real. Resolve as limitações das versões anteriores YOLO , eliminando a necessidade de supressão não máxima (NMS), um passo de pós-processamento utilizado para eliminar detecções duplicadas, e refinando a conceção geral do modelo. Isto resulta numa deteção de objectos mais rápida e mais eficiente, ao mesmo tempo que continua a atingir a precisão mais avançada.

Uma parte vital do que torna isso possível é uma abordagem de treinamento conhecida como atribuições consistentes de rótulos duplos. Combina duas estratégias: uma que permite que várias previsões aprendam com o mesmo objeto (um-para-muitos) e outra que se concentra na escolha da melhor previsão individual (um-para-um). Uma vez que ambas as estratégias seguem as mesmas regras de correspondência, o modelo aprende a evitar duplicações por si só, pelo que não é necessário o NMS.

Figura 3. O YOLOv10 utiliza atribuições consistentes de etiquetas duplas para treino sem NMS.

A arquitetura do YOLOv10 também utiliza um backbone CSPNet melhorado para aprender caraterísticas de forma mais eficaz e um pescoço PAN (Path Aggregation Network) que combina informações de diferentes camadas, tornando-o melhor na deteção de objectos pequenos e grandes. Estas melhorias tornam possível a utilização do YOLOv10 em aplicações do mundo real no fabrico, retalho e condução autónoma.

Caraterísticas principais do YOLOv10

Aqui estão algumas das outras caraterísticas de destaque do YOLOv10:

  • Convoluções de núcleo grande: O modelo utiliza convoluções de núcleo grande para captar mais contexto de áreas mais amplas da imagem, ajudando-o a compreender melhor a cena global.
  • Módulos parciais de auto-atenção: O modelo incorpora módulos parciais de auto-atenção para se concentrar nas partes mais importantes da imagem sem utilizar demasiado poder de computação, aumentando eficazmente o desempenho.
  • Variante única do modelo: Para além dos tamanhos habituais do YOLOv10 - Nano, Small, Medium, Large e X - existe também uma versão especial chamada YOLOv10b (Balanced). É um modelo mais largo, o que significa que processa mais recursos em cada camada, o que ajuda a melhorar a precisão, ao mesmo tempo que equilibra a velocidade e o tamanho.
  • Fácil de utilizar: o YOLOv10 é compatível com o pacote Ultralytics Python , tornando-o fácil de utilizar.

Ultralytics YOLO11: Velocidade e precisão melhoradas

Este ano, em 30 de setembro, Ultralytics lançou oficialmente YOLO11 - um dos mais recentes modelos da série YOLO - no seu evento híbrido anual, YOLO Vision 2024 (YV24).

Esta versão introduziu melhorias significativas em relação às versões anteriores. YOLO11 é mais rápido, mais preciso e altamente eficiente. Suporta toda a gama de tarefas de visão computacional com que os utilizadores YOLOv8 estão familiarizados, incluindo deteção de objectos, segmentação de instâncias e classificação de imagens. Mantém também a compatibilidade com os fluxos de trabalho YOLOv8 , facilitando a transição dos utilizadores para a nova versão.

Além disso, YOLO11 foi concebido para satisfazer uma vasta gama de necessidades de computação - desde dispositivos de ponta leves a poderosos sistemas de nuvem. O modelo está disponível nas versões open-source e empresarial, o que o torna adaptável a diferentes casos de utilização.

É uma excelente opção para tarefas de precisão como a imagiologia médica e a deteção de satélites, bem como para aplicações mais vastas em veículos autónomos, agricultura e cuidados de saúde.

Figura 4. Utiliza o Ultralytics YOLO11 para detetar, contar e seguir o tráfego.

Caraterísticas principais do YOLO11

Aqui estão algumas das outras caraterísticas únicas do YOLO11:

  • Deteção rápida e eficiente: YOLO11 apresenta uma cabeça de deteção concebida para uma latência mínima, concentrando-se na velocidade das camadas de previsão finais sem comprometer o desempenho.
  • Extração de caraterísticas melhorada: Uma arquitetura otimizada de backbone e pescoço melhora a extração de recursos, levando a previsões mais precisas.
  • Implementação perfeita entre plataformas: YOLO11 está optimizado para funcionar eficientemente em dispositivos edge, plataformas cloud e GPUs NVIDIA , garantindo a adaptabilidade em diferentes ambientes.

Aferição dos modelos YOLO no conjunto de dados COCO

Quando exploras modelos diferentes, nem sempre é fácil compará-los apenas olhando para as suas caraterísticas. É aí que entra o benchmarking. Ao executar todos os modelos no mesmo conjunto de dados, podemos medir e comparar objetivamente o seu desempenho. Vamos dar uma olhada no desempenho de cada modelo no conjunto de dados COCO.

Quando comparas os modelos YOLO , cada nova versão traz melhorias notáveis no que diz respeito à precisão, velocidade e flexibilidade. Em particular, o YOLO11m dá um salto aqui, uma vez que utiliza menos 22% de parâmetros do que YOLOv8m, o que significa que é mais leve e mais rápido de executar. Além disso, apesar do seu tamanho mais pequeno, consegue uma precisão média superior (mAP) no conjunto de dados COCO. Esta métrica mede a qualidade com que o modelo detecta e localiza objectos, pelo que uma mAP mais elevada significa previsões mais precisas. 

Fig. 5. Comparação entre YOLO11 e outros modelos YOLO no conjunto de dados COCO.

Testar e comparar modelos YOLO num vídeo

Vamos explorar o desempenho destes modelos numa situação do mundo real.

Para comparar YOLOv8, o YOLOv9, o YOLOv10 e YOLO11, os quatro foram executados no mesmo vídeo de trânsito, utilizando uma pontuação de confiança de 0,3 (o modelo só apresenta as detecções quando tem pelo menos 30% de confiança de que identificou corretamente um objeto) e um tamanho de imagem de 640 para uma avaliação justa. Os resultados da deteção e seguimento de objectos destacaram as principais diferenças em termos de exatidão, velocidade e precisão da deteção. 

Desde a primeira imagem, YOLO11 detectou veículos grandes, como camiões, que o YOLOv10 não detectou. YOLOv8 e o YOLOv9 apresentaram um desempenho decente, mas variou consoante as condições de iluminação e o tamanho do objeto. Os veículos mais pequenos e distantes continuaram a ser um desafio em todos os modelos, embora YOLO11 também tenha apresentado melhorias visíveis nessas detecções.

Fig. 6. Comparação entre YOLOv8, YOLOv9, YOLOv10 e YOLO11.

Em termos de velocidade, todos os modelos funcionaram entre 10 e 20 milissegundos por fotograma, suficientemente rápidos para lidar com tarefas em tempo real a mais de 50 FPS. Por um lado, YOLOv8 e o YOLOv9 forneceram detecções estáveis e fiáveis durante todo o vídeo. Curiosamente, o YOLOv10, concebido para uma latência mais baixa, foi mais rápido mas mostrou algumas inconsistências na deteção de certos tipos de objectos. 

YOLO11, por outro lado, destacou-se pela sua precisão, oferecendo um forte equilíbrio entre velocidade e exatidão. Embora nenhum dos modelos tenha tido um desempenho perfeito em todos os fotogramas, a comparação lado a lado demonstrou claramente que YOLO11 apresentou o melhor desempenho global. 

Que modelo YOLO é o melhor para tarefas de visão por computador?

A seleção de um modelo para um projeto depende dos seus requisitos específicos. Por exemplo, algumas aplicações podem dar prioridade à velocidade, enquanto outras podem exigir maior precisão ou enfrentar restrições de implantação que influenciam a decisão. 

Outro fator importante é o tipo de tarefas de visão computacional que precisas de resolver. Se procuras uma maior flexibilidade em diferentes tarefas, YOLOv8 e YOLO11 são boas opções.

A escolha entre YOLOv8 ou YOLO11 depende realmente das tuas necessidades. YOLOv8 é uma opção sólida se fores novo na visão computacional e valorizares uma comunidade maior, mais tutoriais e integrações extensivas de terceiros

Por outro lado, se procuras um desempenho de ponta com melhor precisão e velocidade, YOLO11 é a melhor escolha, embora tenha uma comunidade mais pequena e menos integrações devido ao facto de ser uma versão mais recente.

Principais conclusões

Do Ultralytics YOLOv8 ao Ultralytics YOLO11, a evolução da série de modelos YOLO reflecte um impulso consistente no sentido de modelos de visão por computador mais inteligentes. Cada versão do YOLO traz actualizações significativas em termos de velocidade, exatidão e precisão. 

À medida que a visão por computador continua a avançar, estes modelos oferecem soluções fiáveis para os desafios do mundo real, desde a deteção de objectos até aos sistemas autónomos. O desenvolvimento contínuo dos modelos YOLO mostra o quanto o campo avançou e o quanto mais podemos esperar no futuro.

Para saber mais sobre IA, visita o nosso repositório GitHub e participa na nossa comunidade. Descobre os avanços em todas as indústrias, desde a IA de visão no fabrico até à visão computacional nos cuidados de saúde. Vê as nossas opções de licenciamento para começares hoje os teus projectos de IA de Visão.

Logótipo do FacebookLogótipo do TwitterLogótipo do LinkedInSímbolo de ligação de cópia

Ler mais nesta categoria

Vamos construir juntos o futuro
da IA!

Começa a tua viagem com o futuro da aprendizagem automática