Glossário

Espinha dorsal

Descobre o papel dos backbones na aprendizagem profunda, explora as principais arquitecturas, como a ResNet e a ViT, e aprende as suas aplicações de IA no mundo real.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Na aprendizagem profunda, em particular no domínio da visão computacional (CV), a "espinha dorsal" refere-se ao conjunto inicial e fundamental de camadas num modelo de rede neural (NN). O seu principal objetivo é a extração de caraterísticas: processar dados de entrada brutos, como uma imagem, e transformá-los numa representação compacta e informativa. Esta representação, frequentemente designada por mapas de caraterísticas, capta padrões, texturas e formas essenciais da entrada. Pensa na espinha dorsal como os olhos da IA, realizando a interpretação inicial antes de ocorrer o raciocínio de nível superior. Este processamento fundamental é crítico para a capacidade geral do modelo para compreender e interpretar a informação visual para tarefas subsequentes.

Funcionalidade principal

Uma espinha dorsal típica é constituída por uma sequência de camadas, incluindo normalmente camadas convolucionais, camadas de agrupamento (que reduzem as dimensões espaciais) e funções de ativação (que introduzem a não linearidade). À medida que os dados de entrada passam por estas camadas, a rede aprende progressivamente caraterísticas hierárquicas. As camadas iniciais podem detetar elementos simples, como arestas e cantos, enquanto as camadas mais profundas combinam estas caraterísticas mais simples para reconhecer estruturas mais complexas, partes de objectos e, eventualmente, objectos inteiros. O resultado gerado pela espinha dorsal é um conjunto de mapas de caraterísticas de alto nível que resumem a informação crucial da entrada original. Este processo reduz efetivamente a dimensionalidade dos dados, preservando o seu significado semântico, formando a base de muitos modelos de aprendizagem profunda bem sucedidos.

Papel nos modelos de visão computacional

Nos modelos sofisticados de visão por computador concebidos para tarefas como a deteção de objectos, a segmentação de instâncias ou a estimativa de pose, a espinha dorsal fornece a representação essencial das caraterísticas. Os componentes subsequentes, frequentemente designados por "pescoço" (que refina e agrega caraterísticas) e "cabeça" (que efectua a previsão final da tarefa), baseiam-se nas caraterísticas extraídas pela espinha dorsal. Por exemplo, uma cabeça de deteção utiliza estas caraterísticas refinadas para prever as caixas delimitadoras dos objectos detectados e as suas classes correspondentes. A espinha dorsal é distinta destas fases posteriores; o seu único objetivo é gerar uma representação de caraterísticas poderosa, muitas vezes de uso geral, a partir dos dados de entrada. Uma prática comum é utilizar backbones pré-treinados em conjuntos de dados de grande escala, como o ImageNet, e depois afiná-los para tarefas específicas a jusante utilizando a aprendizagem por transferência, acelerando significativamente o processo de formação.

Arquitecturas de backbone comuns

Várias arquitecturas de redes neuronais bem estabelecidas são frequentemente utilizadas como backbones devido à sua eficácia comprovada na extração de caraterísticas:

A escolha da espinha dorsal tem um impacto significativo nas caraterísticas de desempenho de um modelo, incluindo a velocidade, o custo computacional(FLOPs) e a exatidão, tal como salientado em várias comparações de modelos. Estruturas como PyTorch e TensorFlowjuntamente com bibliotecas como a OpenCV, são ferramentas essenciais para implementar e utilizar estes backbones. Plataformas como o Ultralytics HUB simplificam ainda mais o processo de utilização de modelos com diferentes backbones.

Distinguir Backbone de termos relacionados

É importante não confundir o backbone com toda a rede neural ou outros componentes específicos:

  • Toda a rede neural: O backbone é apenas uma parte, normalmente a parte inicial de extração de caraterísticas, de uma arquitetura de rede maior. A rede completa também inclui o pescoço e a(s) cabeça(s) responsáveis pelas previsões específicas da tarefa.
  • Cabeça de deteção: Esta é a parte final de um modelo de deteção de objectos que pega em caraterísticas (frequentemente processadas pela espinha dorsal e pelo pescoço) e produz coordenadas de caixa delimitadora e probabilidades de classe. É específica da tarefa, ao contrário da espinha dorsal, que tem uma finalidade mais geral.
  • Extrator de caraterísticas: Embora a espinha dorsal seja um extrator de caraterísticas, o termo "extrator de caraterísticas" pode por vezes referir-se a qualquer parte de uma rede que extraia caraterísticas, ou mesmo a algoritmos de extração de caraterísticas autónomos fora da aprendizagem profunda (como SIFT ou HOG). No contexto das arquitecturas modernas de aprendizagem profunda, como o Ultralytics YOLOa "espinha dorsal" refere-se especificamente à base convolucional inicial.

Aplicações no mundo real

Os backbones são componentes fundamentais em inúmeras aplicações de IA:

  1. Condução autónoma: Os sistemas em carros autónomos dependem fortemente de backbones robustos (por exemplo, variantes ResNet ou EfficientNet) para processar a entrada de câmaras e sensores LiDAR. Os recursos extraídos permitem a deteção e a classificação de veículos, pedestres, semáforos e linhas de pista, o que é crucial para a navegação segura e a tomada de decisões, como visto em sistemas desenvolvidos por empresas como a Waymo.
  2. Análise de imagens médicas: Nas soluções de IA para os cuidados de saúde, os backbones são utilizados para analisar exames médicos como raios X, TACs ou ressonâncias magnéticas. Por exemplo, um backbone como o DenseNet pode extrair caraterísticas de uma radiografia de tórax para ajudar a detetar sinais de pneumonia ou de uma tomografia computadorizada para identificar possíveis tumores(pesquisa relevante em Radiologia: IA). Isto ajuda os radiologistas no diagnóstico e no planeamento do tratamento. Modelos Ultralytics como o YOLO11 podem ser adaptados a tarefas como a deteção de tumores, tirando partido de poderosos backbones.
Lê tudo