Glosario

Reducción de la dimensionalidad

Simplifica los datos de alta dimensión con técnicas de reducción de la dimensionalidad. ¡Mejora hoy mismo el rendimiento, la visualización y la eficiencia de los modelos ML!

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La reducción de la dimensionalidad es un proceso crucial en el Aprendizaje Automático (AM ) y el análisis de datos que se utiliza para reducir el número de características (o dimensiones) de un conjunto de datos, conservando tanta información significativa como sea posible. Los datos de alta dimensionalidad, habituales en campos como la visión por ordenador y el Procesamiento del Lenguaje Natural (PLN), pueden provocar ineficacia computacional, complejidad de los modelos y riesgo de sobreajuste. Al reducir la dimensionalidad, pretendemos simplificar los modelos, mejorar la velocidad de entrenamiento, aumentar el rendimiento y facilitar la visualización de los datos.

¿Por qué es importante la reducción de la dimensionalidad?

Trabajar con conjuntos de datos de alta dimensionalidad presenta varios retos, a menudo denominados"maldición de la dimensionalidad". A medida que aumenta el número de características, el volumen del espacio de datos crece exponencialmente, requiriendo muchos más datos para mantener la significación estadística. La reducción de la dimensionalidad ayuda a mitigar estos problemas:

  1. Reducción del coste computacional: Menos dimensiones significan que se necesita menos cálculo para los algoritmos de entrenamiento, lo que lleva a un desarrollo e inferencia de modelos más rápidos.
  2. Mejorar el rendimiento del modelo: Eliminar características irrelevantes o redundantes puede reducir el ruido y ayudar a los modelos a generalizar mejor los datos no vistos, lo que a menudo conduce a una mejora de la precisión y de otras métricas de rendimiento.
  3. Permitir la visualización de datos: A los humanos nos cuesta visualizar los datos más allá de tres dimensiones. Reducir los datos a dos o tres dimensiones mediante técnicas como el Análisis de Componentes Principales (ACP) o la Incrustación de Vecinos Estocásticos distribuida en t (t-SNE) permite la exploración visual y el descubrimiento de conocimientos.
  4. Minimizar la redundancia: Los datos de alta dimensión suelen contener características correlacionadas. Las técnicas de reducción de la dimensionalidad pueden combinar o seleccionar características para representar los datos de forma más compacta.

Métodos de reducción de la dimensionalidad

Hay dos enfoques principales para reducir la dimensionalidad, que suelen aplicarse durante el preprocesamiento de los datos:

  1. Selección de características: Consiste en seleccionar un subconjunto de las características originales más relevantes para la tarea. Las características se clasifican según las puntuaciones estadísticas o la importancia del modelo, y se descartan las menos importantes. El aspecto clave es que las características seleccionadas permanezcan inalteradas respecto a su forma original.
  2. Extracción de rasgos: Este método crea nuevas características de menor dimensión combinando o transformando las características originales. A diferencia de la selección de características, las características resultantes son diferentes de las originales, pero captan la información esencial. Entre las técnicas de extracción de características más populares están el ACP, el Análisis Discriminante Lineal (ADL) y los Autoencoders. Muchas bibliotecas, como Scikit-learn, ofrecen implementaciones de estos métodos.

Es importante distinguir la reducción de la dimensionalidad de la Ingeniería de Características, que es un proceso más amplio que puede implicar la creación de nuevas características, la transformación de las existentes o la reducción de la dimensionalidad en un solo paso.

Aplicaciones en el mundo real

La reducción de la dimensionalidad se aplica ampliamente en diversos ámbitos:

Conclusión

La reducción de la dimensionalidad es una técnica esencial para gestionar la complejidad de los conjuntos de datos modernos en IA y ML. Al simplificar los datos mediante la selección o extracción de características, los profesionales pueden construir modelos más eficientes, sólidos e interpretables. Comprender y aplicar la reducción de la dimensionalidad es crucial para optimizar los flujos de trabajo, ya sea para un entrenamiento más rápido en plataformas como Ultralytics HUB o para desplegar modelos con menores requisitos computacionales.

Leer todo