Descobre o papel dos backbones na aprendizagem profunda, explora as principais arquitecturas, como a ResNet e a ViT, e aprende as suas aplicações de IA no mundo real.
Na aprendizagem profunda, em particular no domínio da visão computacional (CV), a "espinha dorsal" refere-se ao conjunto inicial e fundamental de camadas num modelo de rede neural (NN). O seu principal objetivo é a extração de caraterísticas: processar dados de entrada brutos, como uma imagem, e transformá-los numa representação compacta e informativa. Esta representação, frequentemente designada por mapas de caraterísticas, capta padrões, texturas e formas essenciais da entrada. Pensa na espinha dorsal como os olhos da IA, realizando a interpretação inicial antes de ocorrer o raciocínio de nível superior. Este processamento fundamental é crítico para a capacidade geral do modelo para compreender e interpretar a informação visual para tarefas subsequentes.
Uma espinha dorsal típica é constituída por uma sequência de camadas, incluindo normalmente camadas convolucionais, camadas de agrupamento (que reduzem as dimensões espaciais) e funções de ativação (que introduzem a não linearidade). À medida que os dados de entrada passam por estas camadas, a rede aprende progressivamente caraterísticas hierárquicas. As camadas iniciais podem detetar elementos simples, como arestas e cantos, enquanto as camadas mais profundas combinam estas caraterísticas mais simples para reconhecer estruturas mais complexas, partes de objectos e, eventualmente, objectos inteiros. O resultado gerado pela espinha dorsal é um conjunto de mapas de caraterísticas de alto nível que resumem a informação crucial da entrada original. Este processo reduz efetivamente a dimensionalidade dos dados, preservando o seu significado semântico, formando a base de muitos modelos de aprendizagem profunda bem sucedidos.
Nos modelos sofisticados de visão por computador concebidos para tarefas como a deteção de objectos, a segmentação de instâncias ou a estimativa de pose, a espinha dorsal fornece a representação essencial das caraterísticas. Os componentes subsequentes, frequentemente designados por "pescoço" (que refina e agrega caraterísticas) e "cabeça" (que efectua a previsão final da tarefa), baseiam-se nas caraterísticas extraídas pela espinha dorsal. Por exemplo, uma cabeça de deteção utiliza estas caraterísticas refinadas para prever as caixas delimitadoras dos objectos detectados e as suas classes correspondentes. A espinha dorsal é distinta destas fases posteriores; o seu único objetivo é gerar uma representação de caraterísticas poderosa, muitas vezes de uso geral, a partir dos dados de entrada. Uma prática comum é utilizar backbones pré-treinados em conjuntos de dados de grande escala, como o ImageNet, e depois afiná-los para tarefas específicas a jusante utilizando a aprendizagem por transferência, acelerando significativamente o processo de formação.
Várias arquitecturas de redes neuronais bem estabelecidas são frequentemente utilizadas como backbones devido à sua eficácia comprovada na extração de caraterísticas:
A escolha da espinha dorsal tem um impacto significativo nas caraterísticas de desempenho de um modelo, incluindo a velocidade, o custo computacional(FLOPs) e a exatidão, tal como salientado em várias comparações de modelos. Estruturas como PyTorch e TensorFlowjuntamente com bibliotecas como a OpenCV, são ferramentas essenciais para implementar e utilizar estes backbones. Plataformas como o Ultralytics HUB simplificam ainda mais o processo de utilização de modelos com diferentes backbones.
É importante não confundir o backbone com toda a rede neural ou outros componentes específicos:
Os backbones são componentes fundamentais em inúmeras aplicações de IA: