Glosario

Reducción de la dimensionalidad

Simplifica los datos de alta dimensión con técnicas de reducción de la dimensionalidad. ¡Mejora hoy mismo el rendimiento, la visualización y la eficiencia de los modelos ML!

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La reducción de la dimensionalidad es una técnica crucial en el aprendizaje automático (AM) que se utiliza para simplificar conjuntos de datos complejos reduciendo el número de características, o variables, al tiempo que se conserva la información esencial. Los datos de alta dimensionalidad, en los que el número de características es grande, pueden plantear problemas como el aumento del coste computacional, el sobreajuste y la dificultad de visualización. La reducción de la dimensionalidad aborda estos problemas transformando los datos en un espacio de menor dimensión, haciéndolos más manejables y eficientes para el análisis y el modelado.

Tipos de reducción de la dimensionalidad

Existen principalmente dos tipos de técnicas de reducción de la dimensionalidad: la selección de rasgos y la extracción de rasgos.

Selección de características

La selección de rasgos consiste en elegir un subconjunto de los rasgos originales en función de su relevancia e importancia para la tarea en cuestión. Este método conserva el significado original de las características, haciendo que los resultados sean más interpretables. Entre los métodos habituales de selección de características se encuentran los métodos de filtro, los métodos de envoltura y los métodos incrustados. Los métodos de filtro evalúan cada característica de forma independiente utilizando medidas estadísticas, como la correlación o la información mutua. Los métodos de envoltura evalúan subconjuntos de características entrenando un modelo y evaluando su rendimiento. Los métodos integrados incorporan la selección de características como parte del proceso de entrenamiento del modelo, como en los árboles de decisión o las técnicas de regularización como Lasso.

Extracción de características

La extracción de características crea nuevas características combinando o transformando las características originales. Este enfoque suele dar como resultado una representación más compacta de los datos, pero las nuevas características pueden no tener una interpretación directa en términos de las variables originales. Entre las técnicas de extracción de características más populares se encuentran el Análisis de Componentes Principales (ACP ) y la Incrustación de Vecinos Estocásticos distribuida en t (t-SNE). El ACP identifica los componentes principales, que son combinaciones lineales de las características originales que capturan la máxima varianza de los datos. El t-SNE es especialmente útil para visualizar datos de alta dimensión en dos o tres dimensiones, preservando las similitudes locales entre los puntos de datos.

Aplicaciones de la reducción de la dimensionalidad

La reducción de la dimensionalidad se utiliza ampliamente en diversos ámbitos de la IA y el ML. He aquí algunas aplicaciones notables:

  • Visualización de datos: Reducir los datos de alta dimensión a dos o tres dimensiones permite visualizar y explorar más fácilmente los patrones y las relaciones dentro de los datos.
  • Reducción del ruido: Al centrarse en las características más importantes, la reducción de la dimensionalidad puede ayudar a filtrar el ruido y mejorar la relación señal-ruido de los datos.
  • Eficiencia computacional: Trabajar con menos características reduce los recursos computacionales necesarios para el entrenamiento y la inferencia, lo que se traduce en tiempos de procesamiento más rápidos.
  • Evitar el sobreajuste: Los datos de alta dimensionalidad pueden dar lugar a modelos que se ajusten en exceso a los datos de entrenamiento, obteniendo malos resultados en los datos no vistos. La reducción de la dimensionalidad ayuda a mitigar este riesgo simplificando el modelo y mejorando su capacidad de generalización.
  • Mejora del rendimiento del modelo: Al eliminar las características irrelevantes o redundantes, la reducción de la dimensionalidad puede mejorar la precisión y la eficacia de los modelos de aprendizaje automático.

Ejemplos de aplicaciones AI/ML en el mundo real

Reconocimiento de imágenes

En el reconocimiento de imágenes, éstas suelen estar representadas por un gran número de píxeles, cada uno de los cuales se considera una característica. La aplicación de técnicas de reducción de la dimensionalidad, como el ACP, puede reducir significativamente el número de características, conservando al mismo tiempo la información esencial necesaria para distinguir entre distintas imágenes. Esto no sólo acelera el entrenamiento de los modelos de visión por ordenador, sino que también ayuda a reducir los requisitos de almacenamiento de los conjuntos de datos de imágenes. Por ejemplo, el PCA puede utilizarse para transformar un conjunto de datos de imágenes faciales en un espacio de dimensiones inferiores, en el que cada nueva característica representa un componente principal que capta las variaciones más significativas de los rasgos faciales.

Procesamiento del Lenguaje Natural

En el procesamiento del lenguaje natural (PLN), los documentos de texto suelen representarse mediante vectores de alta dimensionalidad, como en los modelos de bolsa de palabras o TF-IDF. Las técnicas de reducción de la dimensionalidad, como la Asignación de Dirichlet Latente (LDA) o la Factorización de Matrices No Negativas (NMF), pueden utilizarse para reducir la dimensionalidad de estos vectores preservando el significado semántico del texto. Por ejemplo, el LDA puede identificar temas dentro de una colección de documentos, representando cada documento como una mezcla de estos temas. Esto reduce la dimensionalidad de los datos y proporciona una representación más interpretable del texto.

Conclusión

La reducción de la dimensionalidad es una técnica esencial en el aprendizaje automático para gestionar datos de alta dimensión, mejorar la eficiencia computacional y aumentar el rendimiento de los modelos. Al reducir el número de características mediante la selección o extracción de características, los profesionales pueden crear modelos más sólidos y eficientes. Comprender los principios y aplicaciones de la reducción de la dimensionalidad es crucial para cualquiera que trabaje con conjuntos de datos complejos en IA y ML. Ya sea simplificando los datos para su visualización u optimizando los modelos para un mejor rendimiento, la reducción de la dimensionalidad desempeña un papel vital en el éxito de muchos proyectos de aprendizaje automático. Para los que utilizan modelos Ultralytics YOLO , la integración de técnicas de reducción de la dimensionalidad puede conducir a tiempos de entrenamiento más rápidos y predicciones más precisas, sobre todo cuando se trata de imágenes de alta resolución o grandes conjuntos de datos. Técnicas como el PCA se utilizan habitualmente para reducir la dimensionalidad de los datos de imagen antes de introducirlos en una red neuronal convolucional (CNN), como se describe en un trabajo de investigación sobre la reducción de la dimensionalidad para la clasificación de imágenes. Además, se pueden emplear autocodificadores para aprender codificaciones de datos eficientes de forma no supervisada, mejorando aún más el rendimiento de modelos como Ultralytics YOLO .

Leer todo