Glossaire

Emboîtement stochastique de voisins distribué en t (t-SNE)

Explore le t-SNE, une technique puissante de visualisation des données à haute dimension. Apprends ses utilisations, ses avantages et ses applications dans l'IA et la ML.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Le t-distributed Stochastic Neighbor Embedding (t-SNE) est une technique populaire utilisée pour la réduction de la dimensionnalité, particulièrement bien adaptée à la visualisation d'ensembles de données à haute dimension dans un espace à faible dimension, généralement à deux ou trois dimensions. Développée par Laurens van der Maaten et Geoffrey Hinton, elle excelle à révéler la structure sous-jacente des données, comme les clusters et les manifolds, rendant les données complexes plus faciles à comprendre par une inspection visuelle. Il est largement utilisé dans les domaines de l'apprentissage automatique (ML) et de l'analyse des données.

Comprendre le t-SNE

L'idée centrale de t-SNE est de préserver la structure locale des données. Il modélise la similarité entre les points de données à haute dimension sous forme de probabilités conditionnelles et tente ensuite de trouver un encastrement à basse dimension qui produit une distribution de probabilités similaire entre les points cartographiés. Contrairement aux méthodes linéaires telles que l'analyse en composantes principales (ACP), le t-SNE est non linéaire et probabiliste. Cela lui permet de saisir des relations complexes que l'ACP pourrait manquer, en particulier lorsque les données se trouvent sur des manifolds courbes. Cependant, l'ACP préserve mieux la structure globale et la variance des données.

L'algorithme calcule les similitudes par paire entre les points dans les dimensions hautes et basses. Il utilise une distribution gaussienne dans l'espace à haute dimension et une distribution t (plus précisément, une distribution t de Student avec un degré de liberté) dans l'espace à faible dimension. L'utilisation de la distribution t permet d'atténuer le "problème d'encombrement" (où les points ont tendance à se regrouper au centre de la carte) et de séparer plus efficacement les points dissemblables dans la carte à faible dimension. Le processus consiste à minimiser la divergence entre ces deux distributions à l'aide de la descente de gradient. Pour une explication technique détaillée, reporte-toi à l'article original sur le t-SNE.

Applications dans le domaine de l'IA et de la ML

Le t-SNE est avant tout une technique de visualisation, inestimable pour explorer et comprendre les données à haute dimension générées par les modèles d'IA. Voici quelques exemples :

Considérations clés

Bien que puissant, le t-SNE a des caractéristiques que les utilisateurs doivent comprendre :

  • Coût de calcul : t-SNE peut être très gourmand en calcul, en particulier pour les très grands ensembles de données, car il nécessite de calculer les similitudes par paire.
  • Sensibilité aux hyperparamètres : Les résultats sont sensibles aux hyperparamètres, notamment à la "perplexité", qui influence le nombre de voisins locaux pris en compte pour chaque point. Il est souvent nécessaire de régler correctement les hyperparamètres. Des implémentations comme celle de scikit-learn offrent des contrôles pour ces paramètres.
  • Interprétation : La taille des grappes et les distances qui les séparent sur le graphique t-SNE ne correspondent pas toujours directement à la taille réelle des grappes ou aux séparations dans l'espace haute dimensionnel d'origine. Il révèle principalement les similitudes et les regroupements locaux. C'est un outil d'exploration plutôt qu'une analyse de regroupement définitive comme K-Means.

En résumé, t-SNE est un outil précieux dans la boîte à outils de l'intelligence artificielle (IA) pour visualiser et acquérir une intuition sur des ensembles de données complexes et de haute dimension, en complément d'autres méthodes analytiques.

Tout lire