Descobre o YOLO12, o mais recente modelo de visão por computador! Aprende como a sua arquitetura centrada na atenção e a tecnologia FlashAttention melhoram as tarefas de deteção de objectos em todas as indústrias
A visão por computador é um ramo da inteligência artificial (IA) que ajuda as máquinas a compreender imagens e vídeos. É um campo que está a avançar a um ritmo incrível porque os investigadores e programadores de IA estão constantemente a ultrapassar os limites. A comunidade de IA está sempre a tentar tornar os modelos mais rápidos, mais inteligentes e mais eficientes. Uma das mais recentes descobertas é o YOLO12, a mais recente adição à série de modelos YOLO (You Only Look Once), lançada a 18 de fevereiro de 2025.
O YOLO12 foi desenvolvido por investigadores da Universidade de Buffalo, da SUNY (Universidade Estatal de Nova Iorque) e da Universidade da Academia Chinesa de Ciências. Numa nova abordagem única, o YOLO12 introduz mecanismos de atenção, permitindo que o modelo se concentre nas partes mais essenciais de uma imagem, em vez de processar tudo de forma igual.
Também inclui o FlashAttention, uma técnica que acelera o processamento utilizando menos memória, e um mecanismo de atenção por área, concebido para imitar a forma como os humanos se concentram naturalmente em objectos centrais.
Estas melhorias tornam o YOLO12n 2,1% mais preciso do que o YOLOv10n e o YOLO12m +1,0% mais preciso do que o YOLO11m. No entanto, isto tem uma desvantagem - o YOLO12n é 9% mais lento do que o YOLOv10n e o YOLO12m é 3% mais lento do que o YOLO11m.
Neste artigo, vamos explorar o que torna o YOLO12 diferente, como se compara com as versões anteriores e onde pode ser aplicado.
A série de modelosYOLO é uma coleção de modelos de visão por computador concebidos para a deteção de objectos em tempo real, o que significa que podem identificar e localizar rapidamente objectos em imagens e vídeos. Ao longo do tempo, cada versão melhorou em termos de velocidade, precisão e eficiência.
Por exemplo, Ultralytics YOLOv5lançado em 2020, tornou-se amplamente utilizado porque era rápido e fácil de treinar e implementar. Mais tarde, Ultralytics YOLOv8 melhorou este aspeto, oferecendo suporte adicional para tarefas de visão computacional, como a segmentação de instâncias e o rastreio de objectos.
Mais recentemente, Ultralytics YOLO11 concentrou-se em melhorar o processamento em tempo real, mantendo um equilíbrio entre velocidade e precisão. Por exemplo, o YOLO11m tinha menos 22% de parâmetros do que YOLOv8m, mas mesmo assim apresentou um melhor desempenho de deteção no conjunto de dados COCO, uma referência amplamente utilizada para avaliar modelos de deteção de objectos.
Com base nestes avanços, o YOLO12 introduz uma mudança na forma como processa a informação visual. Em vez de tratar todas as partes de uma imagem da mesma forma, dá prioridade às áreas mais relevantes, melhorando a precisão da deteção. Simplificando, o YOLO12 baseia-se em melhorias anteriores e pretende ser mais preciso.
O YOLO12 introduz várias melhorias que melhoram as tarefas de visão por computador, mantendo intactas as velocidades de processamento em tempo real. Apresentamos-te um resumo das principais caraterísticas do YOLO12:
Para compreender como estas funcionalidades funcionam na vida real, considera um centro comercial. O YOLO12 pode ajudar a seguir os compradores, identificar decorações da loja, como vasos de plantas ou sinais promocionais, e detetar artigos perdidos ou abandonados.
A sua arquitetura centrada na atenção ajuda-o a concentrar-se nos detalhes mais importantes, enquanto o FlashAttention assegura que processa tudo rapidamente sem sobrecarregar o sistema. Isto facilita aos operadores de centros comerciais a melhoria da segurança, a organização da disposição das lojas e a melhoria da experiência de compra global.
No entanto, o YOLO12 também tem algumas limitações a considerar:
O YOLO12 está disponível em várias variantes, cada uma optimizada para diferentes necessidades. As versões mais pequenas (nano e pequena) dão prioridade à velocidade e à eficiência, tornando-as ideais para dispositivos móveis e computação de ponta. As versões média e grande atingem um equilíbrio entre velocidade e precisão, enquanto a YOLO12x (extra grande) foi concebida para aplicações de alta precisão, como automação industrial, imagiologia médica e sistemas de vigilância avançados.
Com estas variações, o YOLO12 proporciona diferentes níveis de desempenho, dependendo do tamanho do modelo. Os testes de referência mostram que certas variantes do YOLO12 superam o YOLOv10 e YOLO11 em termos de exatidão, alcançando uma precisão média superior (mAP).
No entanto, alguns modelos, como o YOLO12m, o YOLO12l e o YOLO12x, processam imagens mais lentamente do que YOLO11, mostrando um compromisso entre a precisão da deteção e a velocidade. Apesar disso, o YOLO12 continua eficiente, exigindo menos parâmetros do que muitos outros modelos, embora ainda use mais do que YOLO11. Isso o torna uma ótima opção para aplicações em que a precisão é mais importante do que a velocidade bruta.
O YOLO12 é suportado pelo pacoteUltralytics Python e é fácil de utilizar, tornando-o acessível tanto para principiantes como para profissionais. Com apenas algumas linhas de código, os utilizadores podem carregar modelos pré-treinados, executar várias tarefas de visão computacional em imagens e vídeos e também treinar o YOLO12 em conjuntos de dados personalizados. O pacote Ultralytics Python simplifica o processo, eliminando a necessidade de passos de configuração complexos.
Por exemplo, eis os passos a seguir para utilizar o YOLO12 para a deteção de objectos:
Estes passos tornam o YOLO12 fácil de utilizar para uma variedade de aplicações, desde a vigilância e o acompanhamento de retalhistas até à imagiologia médica e aos veículos autónomos.
O YOLO12 pode ser utilizado numa variedade de aplicações do mundo real graças ao seu suporte para deteção de objectos, segmentação de instâncias, classificação de imagens, estimativa de pose e deteção orientada de objectos (OBB).
No entanto, como discutimos anteriormente, os modelos YOLO12 dão prioridade à precisão em relação à velocidade, o que significa que demoram um pouco mais a processar imagens em comparação com as versões anteriores. Esta troca torna o YOLO12 ideal para aplicações em que a precisão é mais importante do que a velocidade em tempo real, como por exemplo:
Antes de executares o YOLO12, é importante certificares-te de que o teu sistema cumpre os requisitos necessários.
Tecnicamente, o YOLO12 pode ser executado em qualquer GPU (Unidade de Processamento Gráfico) dedicada. Por defeito, não requer FlashAttention, pelo que pode funcionar na maioria dos sistemas GPU sem ele. No entanto, ativar o FlashAttention pode ser especialmente útil ao trabalhar com grandes conjuntos de dados ou imagens de alta resolução, pois ajuda a evitar lentidão, reduzir o uso de memória e melhorar a eficiência do processamento.
Para utilizar o FlashAttention, necessitarás de umaGPU NVIDIA de uma destas séries: Turing (T4, Quadro RTX), Ampere (série RTX 30, A30, A40, A100), Ada Lovelace (série RTX 40), ou Hopper (H100, H200).
Tendo em mente a usabilidade e a acessibilidade, o pacote Ultralytics Python ainda não suporta a inferência FlashAttention, uma vez que a sua instalação pode ser bastante complexa do ponto de vista técnico. Para saberes mais sobre como começar a utilizar o YOLO12 e otimizar o seu desempenho, consulta a documentação oficial Ultralytics .
À medida que a visão computacional avança, os modelos estão a tornar-se mais precisos e eficientes. O YOLO12 melhora as tarefas de visão computacional, como deteção de objetos, segmentação de instâncias e classificação de imagens com processamento centrado na atenção e FlashAttention, aumentando a precisão e otimizando o uso da memória.
Ao mesmo tempo, a visão computacional está mais acessível do que nunca. O YOLO12 é fácil de utilizar através do pacote Ultralytics Python e, com o seu foco na precisão em detrimento da velocidade, é adequado para imagens médicas, inspecções industriais e robótica - aplicações em que a precisão é fundamental.
Tens curiosidade sobre a IA? Visita o nosso repositório GitHub e participa na nossa comunidade. Explora inovações em sectores como a IA em carros autónomos e a visão computacional na agricultura nas nossas páginas de soluções. Vê as nossas opções de licenciamento e dá vida aos teus projetos de IA de visão. 🚀
Começa a tua viagem com o futuro da aprendizagem automática