Glossário

Redução da dimensionalidade

Simplifica dados altamente dimensionais com técnicas de redução de dimensionalidade. Melhora o desempenho, a visualização e a eficiência do modelo ML hoje mesmo!

A redução da dimensionalidade é um processo crucial na aprendizagem automática (ML) e na análise de dados, utilizado para reduzir o número de caraterísticas (ou dimensões) num conjunto de dados, mantendo o máximo de informação significativa possível. Os dados de elevada dimensão, que contêm numerosas caraterísticas, podem levar a desafios conhecidos como a "maldição da dimensionalidade", em que os modelos se tornam computacionalmente dispendiosos para treinar, requerem mais memória, são propensos a sobreajustes e podem ter dificuldade em generalizar bem devido à distribuição esparsa dos dados. As técnicas de redução da dimensionalidade visam atenuar estes problemas, transformando os dados num espaço de menor dimensão, simplificando o modelo, melhorando a velocidade de treino, melhorando o desempenho do modelo e permitindo uma visualização mais fácil dos dados.

Como funciona a redução da dimensionalidade

As técnicas de redução da dimensionalidade dividem-se geralmente em duas categorias principais:

Seleção de caraterísticas: Estes métodos selecionam um subconjunto das caraterísticas originais, descartando as consideradas irrelevantes ou redundantes. O objetivo é manter as caraterísticas mais informativas sem as alterar. Os métodos podem ser classificados como filtros (com base em propriedades estatísticas), invólucros (com base no desempenho do modelo) ou incorporados (integrados no processo de formação do modelo).
Extração de caraterísticas: Estes métodos transformam os dados originais de elevada dimensão num novo espaço de caraterísticas de dimensão inferior. Em vez de se limitarem a selecionar caraterísticas, criam novas caraterísticas (frequentemente combinações das originais) que captam a informação essencial. Este é um conceito central detalhado na entrada do glossário sobre extração de caraterísticas.

Técnicas fundamentais

Vários algoritmos são normalmente utilizados para a redução da dimensionalidade:

Análise de componentes principais (PCA): Uma técnica linear amplamente utilizada para a extração de caraterísticas. A PCA identifica componentes principais - caraterísticas novas e não correlacionadas que captam a variância máxima nos dados originais. Projecta os dados nestes componentes, reduzindo efetivamente as dimensões e preservando a maior parte da variabilidade dos dados. É frequentemente implementado usando bibliotecas como Scikit-learn.
t-SNE (t-distributed Stochastic Neighbor Embedding): Uma técnica não linear usada principalmente para visualizar dados de alta dimensão em duas ou três dimensões. O t-SNE concentra-se na preservação da estrutura local dos dados, mapeando pontos de dados de alta dimensão para pontos de baixa dimensão, de modo que pontos semelhantes permaneçam próximos uns dos outros. Embora seja excelente para visualização, é computacionalmente intensivo e menos adequado para a redução geral da dimensionalidade antes do treino do modelo, em comparação com o PCA. O site de Laurens van der Maaten oferece recursos sobre t-SNE.
Autoencoders: Um tipo de rede neural (NN) utilizado para aprendizagem não supervisionada e extração de caraterísticas. Um autoencoder é composto por um codificador que comprime os dados de entrada numa representação latente de dimensão inferior (camada de estrangulamento) e um descodificador que reconstrói os dados originais a partir desta representação. A representação latente comprimida serve como saída de dimensão reduzida. Estes são frequentemente construídos utilizando estruturas como PyTorch ou TensorFlow.