Glossaire

Réduction de la dimensionnalité

Simplifie les données à haute dimension avec des techniques de réduction de la dimensionnalité. Améliore les performances, la visualisation et l'efficacité des modèles de ML dès aujourd'hui !

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

La réduction de la dimensionnalité est un processus crucial de l'apprentissage automatique (ML) et de l'analyse des données utilisé pour réduire le nombre de caractéristiques (ou dimensions) dans un ensemble de données tout en conservant autant d'informations significatives que possible. Les données à haute dimension, contenant de nombreuses caractéristiques, peuvent entraîner des défis connus sous le nom de "malédiction de la dimensionnalité", où les modèles deviennent coûteux en calcul à former, nécessitent plus de mémoire, sont enclins à un surajustement et peuvent avoir du mal à bien se généraliser en raison de la distribution clairsemée des données. Les techniques de réduction de la dimensionnalité visent à atténuer ces problèmes en transformant les données en un espace de moindre dimension, en simplifiant le modèle, en améliorant la vitesse de formation, en améliorant les performances du modèle et en facilitant la visualisation des données.

Comment fonctionne la réduction de la dimensionnalité

Les techniques de réduction de la dimensionnalité se divisent généralement en deux catégories principales :

  1. Sélection des caractéristiques : Ces méthodes sélectionnent un sous-ensemble des caractéristiques originales, en écartant celles qui sont jugées non pertinentes ou redondantes. L'objectif est de conserver les caractéristiques les plus informatives sans les modifier. Les méthodes peuvent être classées comme suit : filtre (basé sur les propriétés statistiques), wrapper (basé sur les performances du modèle) ou embedded (intégré dans le processus d'apprentissage du modèle).
  2. Extraction de caractéristiques : Ces méthodes transforment les données originales à haute dimension en un nouvel espace de caractéristiques à plus faible dimension. Au lieu de simplement sélectionner des caractéristiques, elles créent de nouvelles caractéristiques (souvent des combinaisons des caractéristiques originales) qui capturent les informations essentielles. Il s'agit d'un concept fondamental décrit plus en détail dans l'entrée du glossaire consacrée à l'extraction de caractéristiques.

Techniques clés

Plusieurs algorithmes sont couramment utilisés pour la réduction de la dimensionnalité :

  • Analyse en composantes principales (ACP): Une technique linéaire largement utilisée pour l'extraction de caractéristiques. L'ACP identifie les composantes principales - de nouvelles caractéristiques non corrélées qui capturent la variance maximale des données d'origine. Elle projette les données sur ces composantes, ce qui réduit efficacement les dimensions tout en préservant la majeure partie de la variabilité des données. Elle est souvent mise en œuvre à l'aide de bibliothèques telles que Scikit-learn.
  • t-distributed Stochastic Neighbor Embedding (t-SNE): Une technique non linéaire principalement utilisée pour visualiser des données de haute dimension en deux ou trois dimensions. t-SNE se concentre sur la préservation de la structure locale des données, en mettant en correspondance des points de données de haute dimension avec des points de basse dimension de telle sorte que les points similaires restent proches les uns des autres. Bien qu'il soit excellent pour la visualisation, il nécessite beaucoup de calculs et est moins adapté à la réduction générale de la dimensionnalité avant l'entraînement du modèle que l'ACP. Le site de Laurens van der Maaten propose des ressources sur le t-SNE.
  • Autoencodeurs : Un type de réseau neuronal (NN) utilisé pour l'apprentissage non supervisé et l'extraction de caractéristiques. Un autoencodeur se compose d'un encodeur qui comprime les données d'entrée en une représentation latente de dimension inférieure (couche de goulot d'étranglement) et d'un décodeur qui reconstruit les données d'origine à partir de cette représentation. La représentation latente compressée sert de sortie à dimension réduite. Ces systèmes sont souvent construits à l'aide d'outils tels que PyTorch ou TensorFlow.

Réduction de la dimensionnalité et concepts connexes

  • Extraction de caractéristiques : Comme nous l'avons mentionné, l'extraction de caractéristiques est un type de réduction de la dimensionnalité qui crée de nouvelles caractéristiques à partir des anciennes. Les techniques telles que l'ACP et les autoencodeurs entrent dans cette catégorie.
  • Ingénierie des caractéristiques: Il s'agit d'un processus plus large qui implique la création, la sélection et la transformation des caractéristiques afin d'améliorer les performances du modèle. La réduction de la dimensionnalité (à la fois la sélection et l'extraction) est considérée comme faisant partie de l'ingénierie des caractéristiques. Une ingénierie des caractéristiques efficace nécessite souvent une expertise dans le domaine.
  • Compression des données : Bien que les deux visent à réduire la taille des données, la réduction de la dimensionnalité se concentre spécifiquement sur la préservation des informations pertinentes pour les tâches de ML, en écartant potentiellement certains détails de reconstruction. La compression standard des données (comme les fichiers ZIP) vise à minimiser la taille de stockage sans perte ou avec une perte acceptable pour la reconstruction, sans nécessairement l'optimiser pour l'entrée du modèle ML.

Applications en IA et ML

La réduction de la dimensionnalité est vitale dans de nombreuses applications d'intelligence artificielle (IA) et de ML :

  • Vision par ordinateur (VA): Les images contiennent de grandes quantités de données sur les pixels. Des techniques comme l'ACP ou l'extraction de caractéristiques inhérentes aux réseaux neuronaux convolutionnels (CNN) (utilisés dans des modèles tels que Ultralytics YOLO) réduisent cette dimensionnalité, en se concentrant sur les modèles pertinents pour des tâches telles que la détection d'objets ou la classification d'images. Cela accélère le traitement et peut améliorer la précision du modèle. Les guides de données de prétraitement comportent souvent des étapes liées au traitement des caractéristiques.
  • Bioinformatique : L'analyse des données génomiques implique souvent des ensembles de données comportant des milliers d'expressions génétiques (caractéristiques). La réduction de la dimensionnalité aide les chercheurs à identifier des modèles significatifs liés à des maladies ou à des fonctions biologiques, ce qui rend les données biologiques complexes plus faciles à gérer. Les études publiées dans des revues telles que Nature Methods utilisent souvent ces techniques.
  • Traitement du langage naturel (NLP): Les données textuelles peuvent être représentées dans des espaces à haute dimension à l'aide de techniques telles que TF ou les ancrages de mots. La réduction de la dimensionnalité permet de simplifier ces représentations pour des tâches telles que la classification des documents, la modélisation des sujets ou l'analyse des sentiments.
  • Visualisation des données : Des techniques comme t-SNE sont inestimables pour tracer des ensembles de données à haute dimension (par exemple, des segments de clientèle, des grappes génétiques) en 2D ou en 3D, ce qui permet aux humains d'inspecter visuellement et de comprendre les structures ou les relations potentielles au sein des données. Des plateformes comme Ultralytics HUB facilitent la gestion des ensembles de données et des modèles pour lesquels de telles analyses sont pertinentes.

Avantages et défis

Avantages :

  • Réduit les coûts de calcul et le temps de formation.
  • Minimise les besoins en mémoire et en stockage.
  • Peut atténuer la malédiction de la dimensionnalité et réduire le surajustement.
  • Améliore les performances du modèle en supprimant le bruit et la redondance.
  • Permet la visualisation de données complexes et à haute dimension.

Défis :

  • Perte potentielle d'informations importantes si elles ne sont pas appliquées avec soin.
  • Le choix de la technique appropriée et du nombre cible de dimensions peut s'avérer difficile.
  • Les caractéristiques transformées (dans l'extraction de caractéristiques) peuvent parfois être difficiles à interpréter par rapport aux caractéristiques originales.
  • Certaines techniques, comme le t-SNE, sont coûteuses en termes de calcul.

Il est essentiel de comprendre et d'appliquer la réduction de la dimensionnalité pour traiter efficacement des ensembles de données vastes et complexes dans le cadre du développement moderne de l'IA.

Tout lire