Glossário

Redução da dimensionalidade

Simplifica dados altamente dimensionais com técnicas de redução de dimensionalidade. Melhora o desempenho, a visualização e a eficiência do modelo ML hoje mesmo!

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A redução da dimensionalidade é um processo crucial na Aprendizagem Automática (AM) e na análise de dados, utilizado para diminuir o número de caraterísticas (ou dimensões) num conjunto de dados, preservando o máximo de informação significativa possível. Os dados de elevada dimensão, comuns em domínios como a visão computacional e o Processamento de Linguagem Natural (PLN), podem conduzir à ineficiência computacional, à complexidade dos modelos e ao risco de sobreajuste. Ao reduzir a dimensionalidade, o nosso objetivo é simplificar os modelos, melhorar a velocidade de treino, melhorar o desempenho e facilitar a visualização dos dados.

Porque é que a redução da dimensionalidade é importante?

Trabalhar com conjuntos de dados de elevada dimensão apresenta vários desafios, muitas vezes referidos como a"maldição da dimensionalidade". À medida que o número de caraterísticas aumenta, o volume do espaço de dados cresce exponencialmente, exigindo significativamente mais dados para manter a significância estatística. A redução da dimensionalidade ajuda a mitigar estes problemas ao:

  1. Reduz o custo computacional: Menos dimensões significam que é necessária menos computação para treinar algoritmos, o que leva a um desenvolvimento e inferência de modelos mais rápidos.
  2. Melhorar o desempenho do modelo: A remoção de caraterísticas irrelevantes ou redundantes pode reduzir o ruído e ajudar os modelos a generalizar melhor para dados não vistos, o que muitas vezes leva a uma maior precisão e a outras métricas de desempenho.
  3. Permite a visualização de dados: Os seres humanos têm dificuldade em visualizar dados para além de três dimensões. Reduzir os dados para duas ou três dimensões usando técnicas como a Análise de Componentes Principais (PCA) ou a Incorporação de Vizinhos Estocásticos Distribuídos t (t-SNE) permite a exploração visual e a descoberta de insights.
  4. Minimizar a redundância: Os dados de elevada dimensão contêm frequentemente caraterísticas correlacionadas. As técnicas de redução da dimensionalidade podem combinar ou selecionar caraterísticas para representar os dados de forma mais compacta.

Métodos de redução de dimensionalidade

Existem duas abordagens principais para reduzir a dimensionalidade, frequentemente aplicadas durante o pré-processamento de dados:

  1. Seleção de caraterísticas: Trata-se de selecionar um subconjunto das caraterísticas originais que são mais relevantes para a tarefa. As caraterísticas são classificadas com base em pontuações estatísticas ou na importância do modelo, e as menos importantes são descartadas. O aspeto fundamental é que as caraterísticas selecionadas permanecem inalteradas em relação à sua forma original.
  2. Extração de caraterísticas: Este método cria novas caraterísticas de dimensão inferior, combinando ou transformando as caraterísticas originais. Ao contrário da seleção de caraterísticas, as caraterísticas resultantes são diferentes das originais, mas captam a informação essencial. As técnicas populares de extração de caraterísticas incluem PCA, Análise Discriminante Linear (LDA) e Autoencoders. Muitas bibliotecas, como a Scikit-learn, oferecem implementações destes métodos.

É importante distinguir a redução da dimensionalidade da engenharia de caraterísticas, que é um processo mais vasto que pode envolver a criação de novas caraterísticas, a transformação das existentes ou a redução da dimensionalidade numa única etapa.

Aplicações no mundo real

A redução da dimensionalidade é amplamente aplicada em vários domínios:

Conclusão

A redução da dimensionalidade é uma técnica essencial para gerir a complexidade dos conjuntos de dados modernos em IA e ML. Ao simplificar os dados através da seleção ou extração de caraterísticas, os profissionais podem criar modelos mais eficientes, robustos e interpretáveis. Compreender e aplicar a redução da dimensionalidade é crucial para otimizar os fluxos de trabalho, seja para uma formação mais rápida em plataformas como o Ultralytics HUB ou para implementar modelos com requisitos computacionais mais baixos.

Lê tudo