Compara os modelos Ultralytics YOLOv8, YOLOv9, YOLOv10 e Ultralytics YOLO11 para compreenderes como estes modelos evoluíram e melhoraram de 2023 para 2025.
Desde a automatização de tarefas diárias até à ajuda na tomada de decisões informadas em tempo real, a inteligência artificial (IA) está a remodelar o futuro de várias indústrias. Uma área particularmente fascinante da IA é a visão por computador, também conhecida como IA de visão. Centra-se em permitir que as máquinas analisem e interpretem dados visuais como os humanos.
Especificamente, os modelos de visão computacional estão a impulsionar inovações que aumentam a segurança e a eficiência. Por exemplo, estes modelos são utilizados em carros autónomos para detetar peões e em câmaras de segurança para monitorizar instalações 24 horas por dia.
Alguns dos modelos de visão por computador mais conhecidos são os modelos YOLO (You Only Look Once), conhecidos pelas suas capacidades de deteção de objectos em tempo real. Ao longo do tempo, os modelos YOLO foram melhorados, com cada nova versão a oferecer melhor desempenho e mais flexibilidade.
Versões mais recentes como Ultralytics YOLO11 podem lidar com uma variedade de tarefas, como a segmentação de instâncias, a classificação de imagens, a estimativa de pose e o seguimento de vários objectos, com maior exatidão, velocidade e precisão do que nunca.
Neste artigo, vamos comparar Ultralytics YOLOv8YOLOv9, YOLOv10 e Ultralytics YOLO11 para teres uma ideia melhor de como estes modelos evoluíram. Analisaremos as suas principais caraterísticas, resultados de benchmark e diferenças de desempenho. Vamos começar!
YOLOv8, lançado pela Ultralytics a 10 de janeiro de 2023, foi um grande passo em frente em comparação com os modelos YOLO anteriores. Está optimizado para uma deteção precisa e em tempo real, combinando abordagens bem testadas com actualizações inovadoras para obter melhores resultados.
Para além da deteção de objectos, também suporta as seguintes tarefas de visão computacional: segmentação de instâncias, estimativa de pose, deteção de objectos OBB (oriented bounding boxes) e classificação de imagens. Outra caraterística importante do YOLOv8 é que está disponível em cinco variantes de modelos diferentes - Nano, Small, Medium, Large e X - para que possas escolher o equilíbrio certo entre velocidade e precisão com base nas tuas necessidades.
Devido à sua versatilidade e forte desempenho, YOLOv8 pode ser utilizado em muitas aplicações do mundo real, como sistemas de segurança, cidades inteligentes, cuidados de saúde e automação industrial.
Vê mais de perto algumas das outras caraterísticas principais do YOLOv8:
O YOLOv9 foi lançado em 21 de fevereiro de 2024, por Chien-Yao Wang e Hong-Yuan Mark Liao do Instituto de Ciência da Informação, Academia Sinica, Taiwan. Suporta tarefas como a deteção de objectos e a segmentação de instâncias.
Este modelo baseia-se em Ultralytics YOLOv5 e introduz duas grandes inovações: Programmable Gradient Information (PGI) e Generalized Efficient Layer Aggregation Network (GELAN).
O PGI ajuda o YOLOv9 a reter informações importantes à medida que processa os dados através das suas camadas, o que conduz a resultados mais precisos. Entretanto, o GELAN melhora a forma como o modelo utiliza as suas camadas, aumentando o desempenho e a eficiência computacional. Graças a estas actualizações, o YOLOv9 pode lidar com tarefas em tempo real em dispositivos periféricos e aplicações móveis, onde os recursos de computação são frequentemente limitados.
Vê aqui algumas das outras caraterísticas principais do YOLOv8:
O YOLOv10 foi introduzido em 23 de maio de 2024 por investigadores da Universidade de Tsinghua e centra-se na deteção de objectos em tempo real. Resolve as limitações das versões anteriores YOLO , eliminando a necessidade de supressão não máxima (NMS), um passo de pós-processamento utilizado para eliminar detecções duplicadas, e refinando a conceção geral do modelo. Isto resulta numa deteção de objectos mais rápida e mais eficiente, ao mesmo tempo que continua a atingir a precisão mais avançada.
Uma parte vital do que torna isso possível é uma abordagem de treinamento conhecida como atribuições consistentes de rótulos duplos. Combina duas estratégias: uma que permite que várias previsões aprendam com o mesmo objeto (um-para-muitos) e outra que se concentra na escolha da melhor previsão individual (um-para-um). Uma vez que ambas as estratégias seguem as mesmas regras de correspondência, o modelo aprende a evitar duplicações por si só, pelo que não é necessário o NMS.
A arquitetura do YOLOv10 também utiliza um backbone CSPNet melhorado para aprender caraterísticas de forma mais eficaz e um pescoço PAN (Path Aggregation Network) que combina informações de diferentes camadas, tornando-o melhor na deteção de objectos pequenos e grandes. Estas melhorias tornam possível a utilização do YOLOv10 em aplicações do mundo real no fabrico, retalho e condução autónoma.
Aqui estão algumas das outras caraterísticas de destaque do YOLOv10:
Este ano, em 30 de setembro, Ultralytics lançou oficialmente YOLO11 - um dos mais recentes modelos da série YOLO - no seu evento híbrido anual, YOLO Vision 2024 (YV24).
Esta versão introduziu melhorias significativas em relação às versões anteriores. YOLO11 é mais rápido, mais preciso e altamente eficiente. Suporta toda a gama de tarefas de visão computacional com que os utilizadores YOLOv8 estão familiarizados, incluindo deteção de objectos, segmentação de instâncias e classificação de imagens. Mantém também a compatibilidade com os fluxos de trabalho YOLOv8 , facilitando a transição dos utilizadores para a nova versão.
Além disso, YOLO11 foi concebido para satisfazer uma vasta gama de necessidades de computação - desde dispositivos de ponta leves a poderosos sistemas de nuvem. O modelo está disponível nas versões open-source e empresarial, o que o torna adaptável a diferentes casos de utilização.
É uma excelente opção para tarefas de precisão como a imagiologia médica e a deteção de satélites, bem como para aplicações mais vastas em veículos autónomos, agricultura e cuidados de saúde.
Aqui estão algumas das outras caraterísticas únicas do YOLO11:
Quando exploras modelos diferentes, nem sempre é fácil compará-los apenas olhando para as suas caraterísticas. É aí que entra o benchmarking. Ao executar todos os modelos no mesmo conjunto de dados, podemos medir e comparar objetivamente o seu desempenho. Vamos dar uma olhada no desempenho de cada modelo no conjunto de dados COCO.
Quando comparas os modelos YOLO , cada nova versão traz melhorias notáveis no que diz respeito à precisão, velocidade e flexibilidade. Em particular, o YOLO11m dá um salto aqui, uma vez que utiliza menos 22% de parâmetros do que YOLOv8m, o que significa que é mais leve e mais rápido de executar. Além disso, apesar do seu tamanho mais pequeno, consegue uma precisão média superior (mAP) no conjunto de dados COCO. Esta métrica mede a qualidade com que o modelo detecta e localiza objectos, pelo que uma mAP mais elevada significa previsões mais precisas.
Vamos explorar o desempenho destes modelos numa situação do mundo real.
Para comparar YOLOv8, o YOLOv9, o YOLOv10 e YOLO11, os quatro foram executados no mesmo vídeo de trânsito, utilizando uma pontuação de confiança de 0,3 (o modelo só apresenta as detecções quando tem pelo menos 30% de confiança de que identificou corretamente um objeto) e um tamanho de imagem de 640 para uma avaliação justa. Os resultados da deteção e seguimento de objectos destacaram as principais diferenças em termos de exatidão, velocidade e precisão da deteção.
Desde a primeira imagem, YOLO11 detectou veículos grandes, como camiões, que o YOLOv10 não detectou. YOLOv8 e o YOLOv9 apresentaram um desempenho decente, mas variou consoante as condições de iluminação e o tamanho do objeto. Os veículos mais pequenos e distantes continuaram a ser um desafio em todos os modelos, embora YOLO11 também tenha apresentado melhorias visíveis nessas detecções.
Em termos de velocidade, todos os modelos funcionaram entre 10 e 20 milissegundos por fotograma, suficientemente rápidos para lidar com tarefas em tempo real a mais de 50 FPS. Por um lado, YOLOv8 e o YOLOv9 forneceram detecções estáveis e fiáveis durante todo o vídeo. Curiosamente, o YOLOv10, concebido para uma latência mais baixa, foi mais rápido mas mostrou algumas inconsistências na deteção de certos tipos de objectos.
YOLO11, por outro lado, destacou-se pela sua precisão, oferecendo um forte equilíbrio entre velocidade e exatidão. Embora nenhum dos modelos tenha tido um desempenho perfeito em todos os fotogramas, a comparação lado a lado demonstrou claramente que YOLO11 apresentou o melhor desempenho global.
A seleção de um modelo para um projeto depende dos seus requisitos específicos. Por exemplo, algumas aplicações podem dar prioridade à velocidade, enquanto outras podem exigir maior precisão ou enfrentar restrições de implantação que influenciam a decisão.
Outro fator importante é o tipo de tarefas de visão computacional que precisas de resolver. Se procuras uma maior flexibilidade em diferentes tarefas, YOLOv8 e YOLO11 são boas opções.
A escolha entre YOLOv8 ou YOLO11 depende realmente das tuas necessidades. YOLOv8 é uma opção sólida se fores novo na visão computacional e valorizares uma comunidade maior, mais tutoriais e integrações extensivas de terceiros.
Por outro lado, se procuras um desempenho de ponta com melhor precisão e velocidade, YOLO11 é a melhor escolha, embora tenha uma comunidade mais pequena e menos integrações devido ao facto de ser uma versão mais recente.
Do Ultralytics YOLOv8 ao Ultralytics YOLO11, a evolução da série de modelos YOLO reflecte um impulso consistente no sentido de modelos de visão por computador mais inteligentes. Cada versão do YOLO traz actualizações significativas em termos de velocidade, exatidão e precisão.
À medida que a visão por computador continua a avançar, estes modelos oferecem soluções fiáveis para os desafios do mundo real, desde a deteção de objectos até aos sistemas autónomos. O desenvolvimento contínuo dos modelos YOLO mostra o quanto o campo avançou e o quanto mais podemos esperar no futuro.
Para saber mais sobre IA, visita o nosso repositório GitHub e participa na nossa comunidade. Descobre os avanços em todas as indústrias, desde a IA de visão no fabrico até à visão computacional nos cuidados de saúde. Vê as nossas opções de licenciamento para começares hoje os teus projectos de IA de Visão.
Começa a tua viagem com o futuro da aprendizagem automática