Glosario

Incrustación de Vecinos Estocásticos t-distribuida (t-SNE)

Visualiza datos de alta dimensión sin esfuerzo con t-SNE. ¡Descubre patrones, explora clusters y mejora los conocimientos de aprendizaje automático hoy mismo!

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La Incrustación de Vecinos Estocásticos t-distribuida (t-SNE) es una potente técnica utilizada en el aprendizaje automático para visualizar datos de alta dimensión en un espacio de menor dimensión, normalmente de dos o tres dimensiones. Este método es especialmente eficaz para explorar y comprender conjuntos de datos complejos, revelando patrones y estructuras subyacentes que podrían no ser evidentes en el espacio original de alta dimensión. Al reducir las dimensiones conservando las relaciones locales entre los puntos de datos, el t-SNE permite una visualización y un análisis intuitivos, lo que lo convierte en una valiosa herramienta en los flujos de trabajo de análisis exploratorio de datos y aprendizaje automático.

Cómo funciona el t-SNE

La t-SNE funciona construyendo una distribución de probabilidad sobre pares de objetos de alta dimensión, de forma que a los objetos similares se les asigna una probabilidad mayor, mientras que a los objetos no similares se les asigna una probabilidad menor. A continuación, define una distribución de probabilidad similar sobre los puntos del mapa de baja dimensión, y minimiza la divergencia de Kullback-Leibler entre las dos distribuciones con respecto a las ubicaciones de los puntos del mapa. El método está diseñado para preservar las vecindades locales, lo que significa que los puntos próximos en el espacio de alta dimensión tenderán a estar próximos en la representación de baja dimensión.

Aprende más sobre conceptos relacionados en la Reducción de la Dimensionalidad y cómo ayuda al aprendizaje automático.

Principales diferencias con otras técnicas

Aunque el t-SNE es una técnica de reducción de la dimensionalidad, difiere significativamente de otros métodos como el Análisis de Componentes Principales (ACP). El PCA se centra en preservar la estructura global de los datos maximizando la varianza, mientras que el t-SNE hace hincapié en preservar los vecindarios locales. Esta distinción hace que el t-SNE sea especialmente útil para visualizar conglomerados y descubrir estructuras ocultas en los datos. Otra técnica relacionada es la Agrupación de K-Means, que se utiliza para dividir los datos en grupos. Aunque ambas pueden utilizarse juntas, la t-SNE es principalmente una herramienta de visualización, mientras que K-Means es un algoritmo de agrupación.

Aplicaciones en el mundo real

Análisis genómico

En bioinformática, el t-SNE se utiliza ampliamente para visualizar datos genómicos complejos. Por ejemplo, puede ayudar a los investigadores a identificar poblaciones celulares distintas en los datos de secuenciación de ARN unicelular. Al reducir los perfiles de expresión génica de alta dimensión a un mapa bidimensional, la t-SNE puede revelar grupos de células con patrones de expresión similares, lo que ayuda a descubrir nuevos tipos o estados celulares.

Explora el impacto de la IA en el Análisis Genómico con Aprendizaje Automático.

Reconocimiento de imágenes

La t-SNE también puede aplicarse en el reconocimiento de imágenes para visualizar los espacios de características aprendidos por los modelos de aprendizaje profundo. Por ejemplo, al entrenar una Red Neuronal Convolucional (CNN ) para la clasificación de imágenes, se puede utilizar t-SNE para visualizar cómo la red separa las diferentes clases en el espacio de características. Esto puede proporcionar información sobre el proceso de toma de decisiones del modelo y ayudar a identificar posibles áreas de mejora.

Descubre el uso de Ultralytics YOLO para sistemas avanzados de detección de imágenes.

Perspectivas técnicas

El t-SNE implica un proceso estocástico, lo que significa que utiliza el azar para obtener sus resultados. El algoritmo comienza calculando las similitudes por pares entre puntos de datos en el espacio de alta dimensión utilizando una distribución gaussiana. A continuación, mapea estos puntos a un espacio de menor dimensión y utiliza una distribución t para calcular las similitudes. El proceso de optimización ajusta iterativamente las posiciones de los puntos en el espacio de baja dimensión para minimizar la divergencia entre las dos distribuciones de probabilidad.

Uso en IA/ML

Más allá de la visualización, t-SNE puede utilizarse para comprender mejor la estructura de los espacios de características en los modelos de aprendizaje profundo. Es especialmente valioso para comprender cómo distinguen los modelos entre diferentes clases o categorías. Al visualizar las capas intermedias de una red neuronal, los investigadores pueden diagnosticar el comportamiento del modelo, identificar posibles problemas y refinar las arquitecturas del modelo.

Más información sobre las técnicas de extracción de características en la IA y su importancia.

Conclusión

t-SNE es una herramienta inestimable para visualizar e interpretar datos de alta dimensión en el aprendizaje automático. Su capacidad para preservar las estructuras locales la hace especialmente eficaz para descubrir conglomerados y patrones dentro de conjuntos de datos complejos. Tanto si se utiliza para explorar datos genómicos, como para comprender modelos de aprendizaje profundo o visualizar resultados del procesamiento del lenguaje natural, la t-SNE proporciona un poderoso medio para comprender la estructura subyacente de los datos.

Explora cómo Ultralytics' Vision AI Tools puede mejorar aún más tus proyectos de IA integrando técnicas tan avanzadas.

Leer todo