Glossário

Redução da dimensionalidade

Simplifica dados de alta dimensão com técnicas poderosas de redução de dimensionalidade, como PCA e t-SNE. Aumenta a eficiência do modelo ML hoje mesmo!

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A redução de dimensionalidade é uma técnica usada no aprendizado de máquina para reduzir o número de variáveis de entrada em um conjunto de dados, preservando as informações essenciais. Este processo simplifica os dados, tornando-os mais fáceis de analisar e modelar, sem perder detalhes significativos. Ao reduzir as dimensões, podemos melhorar a eficiência computacional, reduzir as necessidades de armazenamento e melhorar o desempenho dos modelos de aprendizagem automática.

Importância da redução da dimensionalidade

Em muitos conjuntos de dados do mundo real, especialmente em domínios como a visão computacional e o processamento de linguagem natural (PNL), os dados podem ter centenas ou mesmo milhares de caraterísticas. Os dados de elevada dimensão podem levar a vários desafios, incluindo o aumento da complexidade computacional, o risco de sobreajuste e a dificuldade em visualizar e interpretar os dados. A redução da dimensionalidade ajuda a mitigar estes problemas, transformando os dados num espaço de menor dimensão que retém a maior parte da informação importante.

Técnicas fundamentais para a redução da dimensionalidade

Existem várias técnicas para a redução da dimensionalidade, classificadas em duas categorias: seleção de caraterísticas e extração de caraterísticas.

Seleção de caraterísticas

A seleção de caraterísticas implica a escolha de um subconjunto das caraterísticas originais com base na sua importância ou relevância para a tarefa de previsão. Esta abordagem mantém as caraterísticas originais, tornando os resultados mais interpretáveis. Os métodos mais comuns incluem:

  • Métodos de filtragem: Estes métodos utilizam medidas estatísticas para pontuar e classificar caraterísticas. Os exemplos incluem testes de qui-quadrado e ganho de informação.
  • Métodos de envolvimento: Estes métodos avaliam subconjuntos de caraterísticas utilizando um modelo específico de aprendizagem automática. Os exemplos incluem a seleção progressiva e a eliminação regressiva.
  • Métodos incorporados: Estes métodos incorporam a seleção de caraterísticas como parte do processo de formação do modelo. Exemplos incluem o LASSO e a regressão Ridge.

Extração de caraterísticas

A extração de elementos cria novos elementos combinando ou transformando os elementos originais. Estas novas caraterísticas, ou componentes, captam as informações mais importantes dos dados. As técnicas mais populares incluem:

  • Análise de componentes principais (PCA): A PCA transforma os dados num novo conjunto de caraterísticas não correlacionadas chamadas componentes principais, ordenadas pela quantidade de variância que explicam. Sabe mais sobre PCA na Wikipédia.
  • t-distributed Stochastic Neighbor Embedding (t-SNE): t-SNE é particularmente útil para visualizar dados de alta dimensão em duas ou três dimensões. Concentra-se na preservação das relações locais entre os pontos de dados. Para mais informações, consulta o documento original sobre o t-SNE.
  • Análise Discriminante Linear (LDA): A LDA é um método supervisionado que encontra combinações lineares de caraterísticas que melhor separam as classes nos dados. É frequentemente utilizado em tarefas de classificação.

Aplicações da redução da dimensionalidade

A redução da dimensionalidade é amplamente utilizada em vários domínios para melhorar a eficiência e a interpretabilidade dos modelos. Eis alguns exemplos:

Reconhecimento de imagens

No reconhecimento de imagens, estas podem ter milhares de pixéis, cada um representando uma caraterística. Utilizando técnicas como a PCA, o número de caraterísticas pode ser reduzido, mantendo as informações essenciais sobre a imagem. Isto torna o treino das redes neuronais convolucionais (CNN) mais rápido e mais eficiente. Por exemplo, em sistemas de reconhecimento facial, a PCA pode reduzir a dimensionalidade das imagens de rostos, facilitando a identificação e classificação de rostos. Explora mais sobre o reconhecimento facial em aplicações de IA.

Análise de texto

Na análise de texto, os documentos podem ser representados por vectores de alta dimensão de frequências de palavras ou embeddings. As técnicas de redução da dimensionalidade, como a Latent Dirichlet Allocation (LDA) ou t-SNE, podem reduzir a dimensionalidade, facilitando o agrupamento de documentos semelhantes ou a visualização de tópicos. Por exemplo, na análise de comentários de clientes, a redução da dimensionalidade pode ajudar a identificar temas e sentimentos chave num grande corpus de comentários.

Cuidados de saúde

Na área da saúde, os dados dos pacientes podem incluir inúmeras variáveis, como histórico médico, resultados de exames e informações genéticas. A redução da dimensionalidade pode ajudar a simplificar esses dados, facilitando a criação de modelos preditivos para diagnóstico ou resultados de tratamento. Por exemplo, a PCA pode identificar os marcadores genéticos mais importantes associados a uma determinada doença. Sabe mais sobre a IA de visão nos cuidados de saúde.

Redução da dimensionalidade vs. engenharia de caraterísticas

Embora tanto a redução da dimensionalidade como a engenharia de caraterísticas tenham como objetivo melhorar o desempenho do modelo, fazem-no de formas diferentes. A engenharia de caraterísticas envolve a criação de novas caraterísticas a partir das existentes, o que muitas vezes requer conhecimentos especializados no domínio. A redução da dimensionalidade, por outro lado, centra-se na redução do número de caraterísticas, preservando a informação essencial. A engenharia de caraterísticas pode ser utilizada em conjunto com a redução da dimensionalidade para melhorar ainda mais o desempenho do modelo.

Conclusão

A redução da dimensionalidade é uma técnica poderosa para simplificar os dados e melhorar a eficiência dos modelos de aprendizagem automática. Ao reduzir o número de caraterísticas, podemos ultrapassar os desafios associados a dados de elevada dimensão, como o aumento da complexidade computacional e o sobreajuste. Técnicas como a PCA e a t-SNE são amplamente utilizadas em várias aplicações, desde o reconhecimento de imagens à análise de texto e aos cuidados de saúde. Compreender e aplicar a redução da dimensionalidade pode melhorar significativamente o desempenho e a interpretabilidade dos teus modelos de aprendizagem automática. Para mais informações sobre tópicos relacionados, explora o glossárioUltralytics .

Lê tudo