Verificação verde
Link copiado para a área de transferência

Explica o YOLO12: Aplicações do mundo real e casos de utilização

Descobre o YOLO12, o mais recente modelo de visão por computador! Aprende como a sua arquitetura centrada na atenção e a tecnologia FlashAttention melhoram as tarefas de deteção de objectos em todas as indústrias

A visão por computador é um ramo da inteligência artificial (IA) que ajuda as máquinas a compreender imagens e vídeos. É um campo que está a avançar a um ritmo incrível porque os investigadores e programadores de IA estão constantemente a ultrapassar os limites. A comunidade de IA está sempre a tentar tornar os modelos mais rápidos, mais inteligentes e mais eficientes. Uma das mais recentes descobertas é o YOLO12, a mais recente adição à série de modelos YOLO (You Only Look Once), lançada a 18 de fevereiro de 2025.

O YOLO12 foi desenvolvido por investigadores da Universidade de Buffalo, da SUNY (Universidade Estatal de Nova Iorque) e da Universidade da Academia Chinesa de Ciências. Numa nova abordagem única, o YOLO12 introduz mecanismos de atenção, permitindo que o modelo se concentre nas partes mais essenciais de uma imagem, em vez de processar tudo de forma igual. 

Também inclui o FlashAttention, uma técnica que acelera o processamento utilizando menos memória, e um mecanismo de atenção por área, concebido para imitar a forma como os humanos se concentram naturalmente em objectos centrais.

Estas melhorias tornam o YOLO12n 2,1% mais preciso do que o YOLOv10n e o YOLO12m +1,0% mais preciso do que o YOLO11m. No entanto, isto tem uma desvantagem - o YOLO12n é 9% mais lento do que o YOLOv10n e o YOLO12m é 3% mais lento do que o YOLO11m.

Fig. 1. Um exemplo da YOLO12 a ser utilizada para detetar objectos.

Neste artigo, vamos explorar o que torna o YOLO12 diferente, como se compara com as versões anteriores e onde pode ser aplicado.

O caminho para o lançamento do YOLO12

A série de modelosYOLO é uma coleção de modelos de visão por computador concebidos para a deteção de objectos em tempo real, o que significa que podem identificar e localizar rapidamente objectos em imagens e vídeos. Ao longo do tempo, cada versão melhorou em termos de velocidade, precisão e eficiência.

Por exemplo, Ultralytics YOLOv5lançado em 2020, tornou-se amplamente utilizado porque era rápido e fácil de treinar e implementar. Mais tarde, Ultralytics YOLOv8 melhorou este aspeto, oferecendo suporte adicional para tarefas de visão computacional, como a segmentação de instâncias e o rastreio de objectos. 

Mais recentemente, Ultralytics YOLO11 concentrou-se em melhorar o processamento em tempo real, mantendo um equilíbrio entre velocidade e precisão. Por exemplo, o YOLO11m tinha menos 22% de parâmetros do que YOLOv8m, mas mesmo assim apresentou um melhor desempenho de deteção no conjunto de dados COCO, uma referência amplamente utilizada para avaliar modelos de deteção de objectos.

Com base nestes avanços, o YOLO12 introduz uma mudança na forma como processa a informação visual. Em vez de tratar todas as partes de uma imagem da mesma forma, dá prioridade às áreas mais relevantes, melhorando a precisão da deteção. Simplificando, o YOLO12 baseia-se em melhorias anteriores e pretende ser mais preciso.

Caraterísticas principais do YOLO12

O YOLO12 introduz várias melhorias que melhoram as tarefas de visão por computador, mantendo intactas as velocidades de processamento em tempo real. Apresentamos-te um resumo das principais caraterísticas do YOLO12:

  • Arquitetura centrada na atenção: Em vez de tratar todas as partes de uma imagem da mesma forma, o YOLO12 concentra-se nas áreas mais importantes. Isto melhora a precisão e reduz o processamento desnecessário, tornando a deteção mais nítida e eficiente, mesmo em imagens desordenadas.
  • FlashAtenção: O YOLO12 acelera a análise de imagens, utilizando menos memória. Com o FlashAttention (um algoritmo eficiente em termos de memória), optimiza o tratamento de dados, reduzindo o esforço do hardware e tornando as tarefas em tempo real mais suaves e fiáveis.
  • Redes de Agregação de Camadas Residuais Eficientes (R-ELAN): O YOLO12 organiza as suas camadas de forma mais eficiente utilizando R-ELAN, o que melhora a forma como o modelo processa e aprende com os dados. Isto torna o treino mais estável, o reconhecimento de objectos mais nítido e os requisitos de computação mais baixos, pelo que funciona eficientemente em diferentes ambientes.

Para compreender como estas funcionalidades funcionam na vida real, considera um centro comercial. O YOLO12 pode ajudar a seguir os compradores, identificar decorações da loja, como vasos de plantas ou sinais promocionais, e detetar artigos perdidos ou abandonados. 

A sua arquitetura centrada na atenção ajuda-o a concentrar-se nos detalhes mais importantes, enquanto o FlashAttention assegura que processa tudo rapidamente sem sobrecarregar o sistema. Isto facilita aos operadores de centros comerciais a melhoria da segurança, a organização da disposição das lojas e a melhoria da experiência de compra global.

Fig. 2. Deteção de objectos num centro comercial utilizando YOLO12.

No entanto, o YOLO12 também tem algumas limitações a considerar:

  • Tempos de treino mais lentos: Devido à sua arquitetura, o YOLO12 requer mais tempo de treino em comparação com o YOLO11.
  • Desafios na exportação: Alguns utilizadores podem encontrar dificuldades ao exportar os modelos YOLO12, especialmente quando os integram em ambientes de implantação específicos.

Compreender os parâmetros de desempenho da YOLO12

O YOLO12 está disponível em várias variantes, cada uma optimizada para diferentes necessidades. As versões mais pequenas (nano e pequena) dão prioridade à velocidade e à eficiência, tornando-as ideais para dispositivos móveis e computação de ponta. As versões média e grande atingem um equilíbrio entre velocidade e precisão, enquanto a YOLO12x (extra grande) foi concebida para aplicações de alta precisão, como automação industrial, imagiologia médica e sistemas de vigilância avançados.

Com estas variações, o YOLO12 proporciona diferentes níveis de desempenho, dependendo do tamanho do modelo. Os testes de referência mostram que certas variantes do YOLO12 superam o YOLOv10 e YOLO11 em termos de exatidão, alcançando uma precisão média superior (mAP). 

No entanto, alguns modelos, como o YOLO12m, o YOLO12l e o YOLO12x, processam imagens mais lentamente do que YOLO11, mostrando um compromisso entre a precisão da deteção e a velocidade. Apesar disso, o YOLO12 continua eficiente, exigindo menos parâmetros do que muitos outros modelos, embora ainda use mais do que YOLO11. Isso o torna uma ótima opção para aplicações em que a precisão é mais importante do que a velocidade bruta.

Fig. 3. Comparação dos Ultralytics YOLO11 e YOLO12.

Utilizar o YOLO12 através do pacote Ultralytics Python

O YOLO12 é suportado pelo pacoteUltralytics Python e é fácil de utilizar, tornando-o acessível tanto para principiantes como para profissionais. Com apenas algumas linhas de código, os utilizadores podem carregar modelos pré-treinados, executar várias tarefas de visão computacional em imagens e vídeos e também treinar o YOLO12 em conjuntos de dados personalizados. O pacote Ultralytics Python simplifica o processo, eliminando a necessidade de passos de configuração complexos.

Por exemplo, eis os passos a seguir para utilizar o YOLO12 para a deteção de objectos:

  • Instala o pacote Ultralytics : Primeiro, instala o pacote Ultralytics Python , que fornece as ferramentas necessárias para executar o YOLO12 de forma eficiente. Isso garante que todas as dependências sejam configuradas corretamente.
  • Carrega um modelo YOLO12 pré-treinado: Escolhe a variante YOLO12 adequada (nano, pequena, média, grande ou extra grande) com base no nível de precisão e velocidade necessários para a tua tarefa.
  • Fornece uma imagem ou um vídeo: Introduz um ficheiro de imagem ou vídeo que pretendes analisar. O YOLO12 também pode processar feeds de vídeo ao vivo para deteção em tempo real.
  • Executa o processo de deteção: O modelo analisa os dados visuais, identifica objectos e coloca caixas delimitadoras à sua volta. Rotula cada objeto detectado com a sua classe prevista e pontuação de confiança.
  • Ajusta as definições de deteção: Também podes modificar parâmetros como os limites de confiança para afinar a precisão e o desempenho da deteção.
  • Guarda ou utiliza a saída: A imagem ou o vídeo processado, agora com objectos detectados, pode ser guardado ou integrado numa aplicação para análise posterior, automatização ou tomada de decisões.

Estes passos tornam o YOLO12 fácil de utilizar para uma variedade de aplicações, desde a vigilância e o acompanhamento de retalhistas até à imagiologia médica e aos veículos autónomos.

Aplicações práticas do YOLO12

O YOLO12 pode ser utilizado numa variedade de aplicações do mundo real graças ao seu suporte para deteção de objectos, segmentação de instâncias, classificação de imagens, estimativa de pose e deteção orientada de objectos (OBB). 

Figura 4. O YOLO12 suporta tarefas como a deteção de objectos e a segmentação de instâncias.

No entanto, como discutimos anteriormente, os modelos YOLO12 dão prioridade à precisão em relação à velocidade, o que significa que demoram um pouco mais a processar imagens em comparação com as versões anteriores. Esta troca torna o YOLO12 ideal para aplicações em que a precisão é mais importante do que a velocidade em tempo real, como por exemplo:

  • Imagiologia médica: O YOLO12 pode ser treinado à medida para detetar tumores ou anomalias em raios X e ressonâncias magnéticas com elevada precisão, o que o torna uma ferramenta útil para médicos e radiologistas que necessitam de uma análise de imagem precisa para o diagnóstico.
  • Controlo de qualidade no fabrico: Pode ajudar a identificar defeitos nos produtos durante o processo de produção, garantindo que apenas os artigos de alta qualidade chegam ao mercado, reduzindo o desperdício e melhorando a eficiência.
  • Análise forense: As agências de aplicação da lei podem afinar o YOLO12 para analisar imagens de vigilância e recolher provas. Nas investigações criminais, a precisão é vital para identificar detalhes importantes.
  • Agricultura de precisão: Os agricultores podem utilizar o YOLO12 para analisar a saúde das culturas, detetar doenças ou infestações de pragas e monitorizar as condições do solo. Avaliações precisas ajudam a otimizar as estratégias agrícolas, levando a um melhor rendimento e gestão de recursos.

Começar a utilizar o YOLO12

Antes de executares o YOLO12, é importante certificares-te de que o teu sistema cumpre os requisitos necessários.

Tecnicamente, o YOLO12 pode ser executado em qualquer GPU (Unidade de Processamento Gráfico) dedicada. Por defeito, não requer FlashAttention, pelo que pode funcionar na maioria dos sistemas GPU sem ele. No entanto, ativar o FlashAttention pode ser especialmente útil ao trabalhar com grandes conjuntos de dados ou imagens de alta resolução, pois ajuda a evitar lentidão, reduzir o uso de memória e melhorar a eficiência do processamento. 

Para utilizar o FlashAttention, necessitarás de umaGPU NVIDIA de uma destas séries: Turing (T4, Quadro RTX), Ampere (série RTX 30, A30, A40, A100), Ada Lovelace (série RTX 40), ou Hopper (H100, H200).

Tendo em mente a usabilidade e a acessibilidade, o pacote Ultralytics Python ainda não suporta a inferência FlashAttention, uma vez que a sua instalação pode ser bastante complexa do ponto de vista técnico. Para saberes mais sobre como começar a utilizar o YOLO12 e otimizar o seu desempenho, consulta a documentação oficial Ultralytics .

Principais conclusões

À medida que a visão computacional avança, os modelos estão a tornar-se mais precisos e eficientes. O YOLO12 melhora as tarefas de visão computacional, como deteção de objetos, segmentação de instâncias e classificação de imagens com processamento centrado na atenção e FlashAttention, aumentando a precisão e otimizando o uso da memória.

Ao mesmo tempo, a visão computacional está mais acessível do que nunca. O YOLO12 é fácil de utilizar através do pacote Ultralytics Python e, com o seu foco na precisão em detrimento da velocidade, é adequado para imagens médicas, inspecções industriais e robótica - aplicações em que a precisão é fundamental.

Tens curiosidade sobre a IA? Visita o nosso repositório GitHub e participa na nossa comunidade. Explora inovações em sectores como a IA em carros autónomos e a visão computacional na agricultura nas nossas páginas de soluções. Vê as nossas opções de licenciamento e dá vida aos teus projetos de IA de visão. 🚀

Logótipo do FacebookLogótipo do TwitterLogótipo do LinkedInSímbolo de ligação de cópia

Ler mais nesta categoria

Vamos construir juntos o futuro
da IA!

Começa a tua viagem com o futuro da aprendizagem automática