Glossário

Campo Recetivo

Descobre a importância dos campos receptivos nas CNNs para a visão computacional. Aprende como têm impacto na deteção de objectos, segmentação e otimização de IA.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O campo recetivo é um conceito fundamental nas redes neurais convolucionais (CNN), particularmente relevante na visão computacional (CV). Refere-se à região específica dos dados de entrada (como uma imagem ou um mapa de caraterísticas) que afecta a ativação de um determinado neurónio ou unidade numa camada subsequente. Com origem na neurociência, onde descreve a área do espaço sensorial que pode provocar uma resposta de um neurónio sensorial, o conceito traduz-se diretamente na forma como os neurónios artificiais de uma CNN "vêem" a entrada. Compreender o campo recetivo é crucial para conceber arquitecturas de rede eficazes para várias tarefas.

Importância das redes neurais convolucionais

Nas CNNs, as camadas são normalmente empilhadas. Cada camada convolucional aplica filtros (kernels) à sua entrada. Um neurónio de uma determinada camada está ligado apenas a uma pequena região da saída da camada anterior - esta região corresponde ao tamanho do kernel. No entanto, à medida que se aprofunda na rede, a ativação de um único neurónio é influenciada por uma área progressivamente maior da imagem de entrada original. Isso ocorre porque cada neurônio integra informações dos campos receptivos dos neurônios da camada anterior. Este aumento hierárquico do tamanho do campo recetivo permite que as CNNs aprendam caraterísticas a diferentes escalas, desde simples arestas e texturas nas camadas iniciais até objectos e padrões complexos nas camadas mais profundas. Gerir adequadamente o tamanho do campo recetivo é fundamental para garantir que a rede consegue captar o contexto relevante para a tarefa, quer se trate de reconhecer um pequeno objeto ou de classificar uma cena inteira.

Factores que influenciam o tamanho do campo recetivo

Várias opções de arquitetura influenciam o tamanho efetivo do campo recetivo dos neurónios numa CNN:

  • Tamanho do grão: Os núcleos maiores aumentam diretamente o campo recetivo numa única camada.
  • Passa: O tamanho do passo com que o kernel se move através da entrada. Um passo maior aumenta o campo recetivo mais rapidamente nas camadas mais profundas, mas pode reduzir a resolução espacial.
  • Agrupamento de camadas: Operações como o max-pooling reduzem a amostragem do mapa de caraterísticas, aumentando efetivamente o campo recetivo das camadas subsequentes em relação à entrada original. Mais detalhes sobre pooling podem ser encontrados aqui.
  • Convoluções dilatadas (Atrous Convolutions): Introduz intervalos entre os elementos do kernel, permitindo que o kernel cubra uma área maior sem aumentar o número de parâmetros ou o custo computacional. Esta técnica é detalhada em investigações como o DeepLab.
  • Profundidade da rede: Empilhar mais camadas é a maneira mais comum de aumentar o tamanho do campo recetivo. Redes mais profundas têm inerentemente campos receptivos maiores em suas camadas finais.

Campo recetivo em diferentes tarefas

O tamanho ideal do campo recetivo depende muito da tarefa específica de visão por computador:

  • Classificação de imagens: Requer frequentemente um grande campo recetivo nas camadas finais, idealmente cobrindo toda a imagem, para tomar uma decisão global baseada em toda a informação visual. Os modelos podem ser treinados em conjuntos de dados como o ImageNet.
  • Deteção de objectos: Necessita de campos receptivos de vários tamanhos para detetar objectos a diferentes escalas. Arquitecturas como a Ultralytics YOLO utilizam frequentemente técnicas como as redes de pirâmides de caraterísticas (FPN) para gerar mapas de caraterísticas com campos receptivos diversos. A deteção de objectos pequenos requer campos receptivos mais pequenos, enquanto os objectos grandes necessitam de campos maiores. Explora as comparações entre diferentes modelos YOLO para ver como as arquitecturas lidam com isto.
  • Segmentação semântica: Requer previsões densas, ao nível do pixel. Embora sejam necessários grandes campos receptivos para o contexto, manter a resolução espacial também é fundamental. As convoluções dilatadas são frequentemente utilizadas aqui para aumentar o campo recetivo sem perder a resolução. Verifica tarefas como a segmentação de fendas.
  • Segmentação de instâncias: Combina a deteção de objectos e a segmentação semântica, exigindo assim campos receptivos variados para a deteção e informações espaciais finas para mascarar instâncias individuais. Ultralytics YOLO11 suporta a segmentação de instâncias.

Exemplos de aplicações do mundo real

  1. Veículos autónomos: Os sistemas de deteção de objectos em carros autónomos, como os desenvolvidos por empresas como a Waymo, precisam de identificar peões, outros veículos, semáforos e marcas de faixa de rodagem de vários tamanhos e distâncias. As CNNs com campos receptivos cuidadosamente concebidos, potencialmente utilizando modelos como YOLOv8 ou RT-DETRpermitem ao sistema percecionar simultaneamente pequenos obstáculos próximos (que exigem campos receptivos mais pequenos) e veículos grandes ou sinais de trânsito distantes (que exigem campos receptivos maiores). A IA nas soluções para automóveis depende frequentemente desta capacidade.
  2. Análise de imagens médicas: Ao analisar exames médicos (por exemplo, CT, MRI) para detetar anomalias como tumores ou lesões(ver exemplo de deteção de tumores), o tamanho do campo recetivo é crítico. Um campo recetivo demasiado pequeno pode perder estruturas maiores ou informações contextuais, ao passo que um campo demasiado grande pode eliminar detalhes locais importantes. Os modelos utilizados na IA em radiologia devem equilibrar o tamanho do campo recetivo para captar tanto a textura subtil de uma pequena lesão como o contexto anatómico mais amplo. O treino eficaz de modelos em conjuntos de dados como os de tumores cerebrais tem em conta este equilíbrio.

Conceitos e ferramentas relacionados

A compreensão dos campos receptivos está intimamente ligada a conceitos como tamanho do núcleo, stride, padding e arquitetura geral da rede. Enquanto o kernel define o padrão de conexão local, o campo recetivo descreve o efeito cumulativo na entrada. Várias estruturas de aprendizado profundo, como PyTorch e o TensorFlow implementam estes conceitos. Existem ferramentas que ajudam a visualizar campos receptivos em CNNs, auxiliando na conceção da arquitetura e na depuração. Ao trabalhar com modelos como o Ultralytics YOLO11 através de plataformas como o Ultralytics HUB, o conhecimento do campo recetivo ajuda a selecionar tamanhos ou configurações de modelos adequados para tarefas específicas de deteção ou segmentação.

Lê tudo