Glossário

Redes de Cápsulas (CapsNet)

Descobre as Redes de Cápsulas (CapsNets): Uma arquitetura de rede neural inovadora que se destaca em hierarquias espaciais e relações de caraterísticas.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

As redes de cápsulas, frequentemente designadas por CapsNets, representam um novo tipo de arquitetura de redes neuronais concebido para resolver algumas limitações das redes neuronais convolucionais (CNN) tradicionais, em particular no tratamento de hierarquias espaciais e relações entre caraterísticas em imagens. Ao contrário das CNNs, que usam saídas escalares de operações de agrupamento, as CapsNets empregam vetores para representar caraterísticas, o que lhes permite capturar informações mais detalhadas sobre a orientação e as posições espaciais relativas dos objetos. Esta capacidade torna as CapsNets particularmente eficazes em tarefas como o reconhecimento de imagens, em que é crucial compreender a pose e as relações espaciais dos objectos.

Conceitos fundamentais

As CapsNets introduzem o conceito de "cápsulas", que são grupos de neurónios cujo vetor de atividade representa várias propriedades de um tipo específico de entidade, como um objeto ou uma parte de um objeto. O comprimento do vetor de atividade representa a probabilidade de a entidade existir, enquanto a sua orientação codifica os parâmetros de instanciação (por exemplo, posição, tamanho, orientação). As cápsulas activas a um nível fazem previsões, através de matrizes de transformação, para os parâmetros de instanciação das cápsulas de nível superior. Quando várias previsões coincidem, uma cápsula de nível superior torna-se ativa. Este processo é conhecido como "encaminhamento por acordo".

Principais diferenças em relação às Redes Neuronais Convolucionais (CNNs)

Embora tanto as CapsNets como as Redes Neuronais Convolucionais (CNNs) sejam utilizadas em tarefas de visão computacional (CV), diferem significativamente na sua abordagem ao processamento de informação espacial:

  • Representação de caraterísticas: As CNNs utilizam valores escalares para representar caraterísticas, enquanto as CapsNets utilizam vectores, o que lhes permite captar informações mais detalhadas sobre a pose e as propriedades dos objectos.
  • Operações de agrupamento: As CNNs usam frequentemente o max-pooling, o que pode levar à perda de informação espacial precisa. As CapsNets evitam isso usando o roteamento dinâmico, que preserva as hierarquias espaciais.
  • Equivariância: As CapsNets foram concebidas para serem equívocas em relação a alterações no ponto de vista, o que significa que podem reconhecer objectos mesmo quando a sua orientação muda. As CNNs não são inerentemente equívocas e requerem técnicas como o aumento de dados para obter resultados semelhantes.

Vantagens das redes de cápsulas

As CapsNets oferecem várias vantagens em relação às CNNs tradicionais:

  • Melhora o tratamento de hierarquias espaciais: Ao representar caraterísticas como vectores, as CapsNets podem compreender melhor as relações espaciais entre partes de um objeto.
  • Maior robustez a transformações afins: As CapsNets podem reconhecer objetos sob várias transformações (por exemplo, rotação, escala) sem a necessidade de aumentar muito os dados.
  • Melhor generalização com menos dados: Devido à sua capacidade de capturar informações detalhadas sobre as caraterísticas, as CapsNets podem frequentemente alcançar um bom desempenho com menos exemplos de treinamento em comparação com as CNNs.

Aplicações no mundo real

As redes de cápsulas têm-se revelado promissoras em várias aplicações, demonstrando o seu potencial para fazer avançar o domínio da aprendizagem profunda (DL):

  • Imagiologia médica: Na análise de imagens médicas, as CapsNets podem melhorar a precisão do diagnóstico de doenças através de uma melhor compreensão das relações espaciais entre diferentes estruturas anatómicas. Por exemplo, elas podem ser usadas para detetar e classificar tumores com mais precisão, analisando sua forma, tamanho e posição relativa dentro de um órgão.
  • Veículos autónomos: As CapsNets podem melhorar os sistemas de perceção dos veículos autónomos, melhorando a deteção e o reconhecimento de objectos, especialmente em condições difíceis, como a variação de pontos de vista e oclusões. Isto pode levar a uma navegação mais segura e fiável.
  • Reconhecimento facial: Nos sistemas de reconhecimento facial, as CapsNets podem proporcionar um desempenho mais robusto, capturando com precisão as relações espaciais entre as caraterísticas faciais, mesmo com alterações na pose e na expressão.

Desafios e direcções futuras

Apesar das suas vantagens, as CapsNets também enfrentam desafios, como a maior complexidade computacional em comparação com as CNNs e a necessidade de mais investigação para otimizar a sua arquitetura e os procedimentos de treino. A investigação em curso centra-se na melhoria da eficiência do encaminhamento dinâmico, na exploração de novos tipos de cápsulas e na aplicação das CapsNets a uma gama mais vasta de tarefas para além do reconhecimento de imagens.

À medida que o campo da inteligência artificial (IA) continua a evoluir, as redes de cápsulas representam uma área de desenvolvimento empolgante, oferecendo novas possibilidades para a criação de modelos de redes neurais mais robustos e versáteis. A sua capacidade de captar informações espaciais detalhadas e de lidar com transformações torna-as uma ferramenta valiosa para o avanço da visão por computador e de outras aplicações de IA. Para os interessados em explorar modelos de IA de ponta, os modelos Ultralytics YOLO oferecem arquitecturas de deteção de objectos de última geração que incorporam alguns dos mais recentes avanços neste campo. Além disso, o Ultralytics HUB fornece uma plataforma para treinar e implementar estes modelos, facilitando ainda mais o desenvolvimento e a aplicação de soluções avançadas de IA.

Lê tudo