Descobre como os mapas de caraterísticas alimentam os modelos Ultralytics YOLO , permitindo a deteção precisa de objectos e aplicações avançadas de IA, como a condução autónoma.
Os mapas de caraterísticas são resultados fundamentais gerados pelas camadas de uma rede neural convolucional (CNN), em especial as camadas convolucionais. Representam caraterísticas aprendidas ou padrões detectados nos dados de entrada, como uma imagem. Pensa neles como versões filtradas da entrada, em que cada mapa destaca a presença e a localização espacial de uma caraterística específica - como arestas, cantos, texturas ou formas mais complexas - que a rede considera importante para a tarefa em questão, como deteção de objectos, segmentação de imagens ou classificação de imagens. Estes mapas são componentes cruciais na forma como os modelos de aprendizagem profunda (DL) interpretam a informação visual.
Os mapas de caraterísticas são gerados através de uma operação matemática denominada convolução. Durante este processo, uma pequena matriz conhecida como filtro (ou kernel) desliza pelos dados de entrada (ou pelo mapa de caraterísticas da camada anterior). Em cada posição, o filtro efectua uma multiplicação por elementos com o fragmento sobreposto da entrada e soma os resultados para produzir um único valor no mapa de caraterísticas de saída. Cada filtro é concebido ou aprendido durante o treino para detetar um padrão específico. Uma camada convolucional utiliza normalmente vários filtros, cada um produzindo o seu próprio mapa de caraterísticas, captando assim um conjunto diversificado de caraterísticas da entrada. A espinha dorsal da rede, muitas vezes construída com frameworks como PyTorch ou TensorFlowé o principal responsável pela geração desses ricos mapas de caraterísticas a partir dos dados de entrada, muitas vezes visualizados usando ferramentas como o OpenCV.
Numa arquitetura CNN típica, a imagem de entrada passa por uma série de camadas. As primeiras camadas, mais próximas da entrada, tendem a produzir mapas de caraterísticas que captam caraterísticas simples e de baixo nível (por exemplo, linhas horizontais, contrastes de cor simples, texturas básicas). medida que os dados vão entrando mais profundamente na rede neuronal (RN), as camadas subsequentes combinam estas caraterísticas simples para construir representações mais complexas e abstractas. Os mapas de caraterísticas em camadas mais profundas podem destacar partes do objeto (como as rodas de um carro ou os olhos de um rosto) ou mesmo objectos inteiros. Esta aprendizagem hierárquica de caraterísticas permite que a rede aprenda padrões complexos progressivamente, passando de padrões gerais para detalhes específicos relevantes para a tarefa. Podes explorar os conceitos fundamentais em recursos como as notas do curso CS231n de Stanford sobre CNNs.
Os mapas de caraterísticas são a pedra angular da forma como as CNNs efectuam a extração automática de caraterísticas, eliminando a necessidade de engenharia manual de caraterísticas que era comum na visão computacional (CV) tradicional. A qualidade e a relevância das caraterísticas captadas nestes mapas têm um impacto direto no desempenho do modelo, medido por métricas como a exatidão e a precisão média (mAP). Em modelos de deteção de objectos como o Ultralytics YOLOdo Ultralytics, especificamente versões como YOLOv8 e YOLO11No YOLO, os mapas de caraterísticas gerados pelo backbone são frequentemente processados por uma estrutura de "pescoço" (como FPN ou PAN) antes de serem passados para a cabeça de deteção. A cabeça de deteção utiliza então estes mapas de caraterísticas refinados para prever os resultados finais: caixas delimitadoras que indicam a localização dos objectos e probabilidades de classe que identificam os objectos encontrados em conjuntos de dados como COCO ou ImageNet.
Os mapas de caraterísticas são parte integrante de inúmeras aplicações de Inteligência Artificial (IA) e Aprendizagem Automática (AM):
A visualização de mapas de caraterísticas pode fornecer informações sobre o que uma CNN aprendeu e como toma decisões. Ao examinar que partes de uma imagem activam mapas de caraterísticas específicos, os programadores podem compreender se o modelo se está a concentrar em caraterísticas relevantes. Este é um componente da IA explicável (XAI) e pode ser feito utilizando ferramentas como o TensorBoard ou outras técnicas de visualização. A compreensão dos mapas de caraterísticas ajuda a depurar modelos e a melhorar a sua robustez e fiabilidade, que podem ser geridas e acompanhadas utilizando plataformas como o Ultralytics HUB.