Glosario

Reducción de la dimensionalidad

Simplifica los datos de alta dimensión con técnicas de reducción de la dimensionalidad. ¡Mejora hoy mismo el rendimiento, la visualización y la eficiencia de los modelos ML!

La reducción de la dimensionalidad es un proceso crucial en el aprendizaje automático (AM) y el análisis de datos que se utiliza para reducir el número de características (o dimensiones) de un conjunto de datos conservando tanta información significativa como sea posible. Los datos de alta dimensión, que contienen numerosas características, pueden dar lugar a problemas conocidos como la "maldición de la dimensionalidad", en la que los modelos se vuelven costosos de entrenar desde el punto de vista informático, requieren más memoria, son propensos al sobreajuste y pueden tener dificultades para generalizar bien debido a la distribución dispersa de los datos. Las técnicas de reducción de la dimensionalidad pretenden mitigar estos problemas transformando los datos en un espacio de menor dimensión, simplificando el modelo, mejorando la velocidad de entrenamiento, aumentando el rendimiento del modelo y permitiendo una visualización más sencilla de los datos.

Cómo funciona la reducción de la dimensionalidad

Las técnicas de reducción de la dimensionalidad suelen clasificarse en dos categorías principales:

Selección de características: Estos métodos seleccionan un subconjunto de las características originales, descartando las que se consideran irrelevantes o redundantes. El objetivo es conservar las características más informativas sin alterarlas. Los métodos pueden clasificarse como filtro (basado en propiedades estadísticas), envoltorio (basado en el rendimiento del modelo) o incrustado (integrado en el proceso de entrenamiento del modelo).
Extracción de rasgos: Estos métodos transforman los datos originales de alta dimensión en un nuevo espacio de características de menor dimensión. En lugar de limitarse a seleccionar características, crean otras nuevas (a menudo combinaciones de las originales) que captan la información esencial. Se trata de un concepto básico que se detalla con más detalle en la entrada del glosario sobre extracción de características.

Técnicas clave

Se suelen utilizar varios algoritmos para reducir la dimensionalidad:

Análisis de Componentes Principales (ACP): Una técnica lineal muy utilizada para la extracción de características. El ACP identifica los componentes principales, nuevas características no correlacionadas que capturan la máxima varianza de los datos originales. Proyecta los datos sobre estos componentes, reduciendo eficazmente las dimensiones y conservando la mayor parte de la variabilidad de los datos. A menudo se implementa utilizando bibliotecas como Scikit-learn.
Incrustación de Vecinos Estocásticos Distribuidos (t-SNE): Técnica no lineal utilizada principalmente para visualizar datos de alta dimensión en dos o tres dimensiones. t-SNE se centra en preservar la estructura local de los datos, mapeando puntos de datos de alta dimensión a puntos de baja dimensión, de forma que los puntos similares permanezcan próximos entre sí. Aunque es excelente para la visualización, es computacionalmente intensivo y menos adecuado para la reducción general de la dimensionalidad antes del entrenamiento del modelo, en comparación con el ACP. El sitio de Laurens van der Maaten ofrece recursos sobre t-SNE.
Autocodificadores: Un tipo de red neuronal (NN ) que se utiliza para el aprendizaje no supervisado y la extracción de características. Un autocodificador consta de un codificador que comprime los datos de entrada en una representación latente de dimensión reducida (capa cuello de botella) y un decodificador que reconstruye los datos originales a partir de esta representación. La representación latente comprimida sirve como salida de dimensión reducida. A menudo se construyen utilizando marcos como PyTorch o TensorFlow.