Descobre o papel dos backbones na aprendizagem profunda, explora as principais arquitecturas, como a ResNet e a ViT, e aprende as suas aplicações de IA no mundo real.
No domínio da aprendizagem profunda, particularmente na visão computacional, o termo "espinha dorsal" refere-se a uma parte crucial de uma rede neural que é responsável pela extração de caraterísticas. Pensa nela como a base sobre a qual o resto da rede é construído. A espinha dorsal pega nos dados brutos de entrada, como imagens, e transforma-os num formato estruturado, conhecido como mapas de caraterísticas, que pode ser utilizado eficazmente pelas partes subsequentes da rede. Esses mapas de caraterísticas capturam informações essenciais sobre a entrada, como bordas, texturas e formas, permitindo que o modelo compreenda e interprete dados visuais complexos. Para os utilizadores familiarizados com os conceitos básicos de aprendizagem automática, o backbone pode ser entendido como as camadas iniciais de uma rede neural que aprendem representações hierárquicas dos dados de entrada.
A espinha dorsal desempenha um papel fundamental na determinação do desempenho geral e da eficiência de um modelo de aprendizagem profunda. Normalmente, consiste em várias camadas de operações convolucionais, agrupamento e activações. As camadas convolucionais são responsáveis pela extração de caraterísticas dos dados de entrada, enquanto as camadas de pooling reduzem as dimensões espaciais dos mapas de caraterísticas, tornando o modelo mais eficiente do ponto de vista computacional. As funções de ativação introduzem a não linearidade na rede, permitindo-lhe aprender padrões complexos. O resultado da espinha dorsal, os mapas de caraterísticas, é depois introduzido nas partes subsequentes da rede, como as cabeças de deteção para a deteção de objectos ou os módulos de segmentação para a segmentação de imagens. A qualidade das caraterísticas extraídas pela espinha dorsal tem um impacto direto na capacidade do modelo para executar com precisão a tarefa pretendida.
Várias arquitecturas de espinha dorsal ganharam popularidade na visão computacional devido à sua eficácia em várias tarefas. Alguns exemplos notáveis incluem:
Os backbones são fundamentais para uma vasta gama de aplicações de IA do mundo real, permitindo às máquinas "ver" e interpretar dados visuais de uma forma semelhante à dos humanos. Eis dois exemplos concretos:
Nos automóveis autónomos, os backbones são utilizados para processar dados visuais de câmaras e outros sensores, permitindo que o veículo perceba o que o rodeia. Por exemplo, Ultralytics YOLO utilizam backbones eficientes para detetar objectos como peões, outros veículos e sinais de trânsito em tempo real. Esta informação é crucial para que o sistema de navegação do veículo tome decisões informadas e garanta uma condução segura.
Na análise de imagens médicas, os backbones são utilizados para extrair caraterísticas de imagens médicas como radiografias, ressonâncias magnéticas e tomografias computadorizadas. Estas caraterísticas podem então ser utilizadas para tarefas como o diagnóstico de doenças, a deteção de anomalias e a segmentação de estruturas anatómicas. Por exemplo, um backbone pode ser treinado num conjunto de dados de imagens de tumores cerebrais, como o conjunto de dados de deteção de tumores cerebrais, para aprender caraterísticas relevantes que ajudam a identificar e localizar tumores.
A escolha do backbone certo para uma aplicação específica depende de vários factores, incluindo a complexidade da tarefa, os recursos computacionais disponíveis e a precisão pretendida. Para ambientes com recursos limitados, como dispositivos móveis ou aplicações de IA de ponta, podem ser preferidos backbones mais leves com menos parâmetros. Por outro lado, para tarefas que exigem elevada precisão, podem ser necessários backbones mais profundos e mais complexos.
É importante distinguir o backbone de outros componentes de uma rede neural. Enquanto o backbone extrai caraterísticas, outras partes da rede, como a cabeça de deteção ou o módulo de segmentação, são responsáveis por fazer previsões com base nessas caraterísticas. A espinha dorsal é como os olhos da rede, fornecendo a informação visual em bruto, enquanto os outros componentes são como o cérebro, interpretando essa informação para executar tarefas específicas. Além disso, o conceito de aprendizagem por transferência é frequentemente aplicado aos backbones, em que um backbone pré-treinado num grande conjunto de dados como o ImageNet é utilizado como ponto de partida para o treino de uma nova tarefa. Isto permite que o modelo aproveite os conhecimentos adquiridos com o conjunto de dados pré-treino, melhorando o desempenho e reduzindo o tempo de treino. Ferramentas como o Ultralytics HUB simplificam o processo de experimentar diferentes backbones e treinar modelos personalizados.