Glossaire

Réduction de la dimensionnalité

Simplifiez les données à haute dimension grâce à des techniques de réduction de la dimensionnalité. Améliorez dès aujourd'hui les performances, la visualisation et l'efficacité de vos modèles ML !

La réduction de la dimensionnalité est une technique cruciale de prétraitement des données dans l'apprentissage machine (ML), utilisée pour réduire le nombre de caractéristiques - également appelées variables ou dimensions - dans un ensemble de données. L'objectif principal est de transformer des données de haute dimension en une représentation de dimension inférieure tout en conservant autant d'informations significatives que possible. Ce processus est essentiel pour simplifier les modèles, réduire la complexité informatique et atténuer un problème courant connu sous le nom de "malédiction de la dimensionnalité", où les performances se dégradent à mesure que le nombre de caractéristiques augmente. L'application efficace de ces techniques est un élément clé du cycle de vie du développement de l'IA.

Pourquoi la réduction de la dimensionnalité est-elle importante ?

Travailler avec des données de haute dimension présente plusieurs défis. Les modèles formés sur des ensembles de données comportant un trop grand nombre de caractéristiques peuvent devenir trop complexes, ce qui entraîne un surajustement, c'est-à-dire que le modèle apprend le bruit au lieu du modèle sous-jacent. En outre, un plus grand nombre de caractéristiques nécessite plus de puissance de calcul et de stockage, ce qui augmente le temps et les coûts de formation. La réduction de la dimensionnalité permet de résoudre ces problèmes :

  • Simplification des modèles : Un nombre réduit de caractéristiques permet d'obtenir des modèles plus simples, plus faciles à interpréter et moins susceptibles d'être surajoutés.
  • Amélioration des performances : En supprimant les caractéristiques non pertinentes ou redondantes (bruit), le modèle peut se concentrer sur les signaux les plus importants des données, ce qui se traduit souvent par une meilleure précision et une meilleure généralisation.
  • Réduction de la charge de calcul : Les données de moindre dimension accélèrent considérablement l'apprentissage des modèles et réduisent les besoins en mémoire, ce qui est essentiel pour l'inférence en temps réel.
  • Améliorer la visualisation : Il est impossible de visualiser des données en plus de trois dimensions. Des techniques telles que le t-SNE réduisent les données à deux ou trois dimensions, ce qui permet une visualisation plus précise des données.

Techniques courantes

Il existe deux approches principales de la réduction de la dimensionnalité : la sélection et l'extraction des caractéristiques.

  • Sélection des caractéristiques: Cette approche consiste à sélectionner un sous-ensemble des caractéristiques originales et à rejeter le reste. Elle ne crée pas de nouvelles caractéristiques, de sorte que le modèle obtenu est hautement interprétable. Les méthodes sont souvent classées en techniques de filtrage, d'enveloppement ou d'intégration.
  • Extraction de caractéristiques : Cette approche transforme les données d'un espace à haute dimension en un espace à dimensions réduites en créant de nouvelles caractéristiques à partir de combinaisons des anciennes. Les techniques les plus courantes sont les suivantes :
    • Analyse en composantes principales (ACP) : Une technique linéaire qui identifie les composantes principales (directions de la variance la plus élevée) dans les données. Elle est rapide et facile à interpréter, mais ne permet pas toujours de saisir les relations non linéaires complexes.
    • Autoencodeurs : Un type de réseau neuronal utilisé pour l'apprentissage non supervisé qui peut apprendre des représentations efficaces et comprimées des données. Ils sont puissants pour l'apprentissage de structures non linéaires mais sont plus complexes que l'ACP.
    • t-SNE (t-distributed Stochastic Neighbor Embedding) : Une technique non linéaire excellente pour visualiser des données de haute dimension en révélant les grappes sous-jacentes et les structures locales. Elle est souvent utilisée pour l'exploration plutôt que comme étape de prétraitement d'un autre modèle ML en raison de son coût informatique.

Réduction de la dimensionnalité et concepts connexes

Il est important de distinguer la réduction de la dimensionnalité des concepts connexes tels que l'ingénierie des caractéristiques. Alors que l'ingénierie des caractéristiques est un vaste processus de création, de sélection et de transformation des variables afin d'améliorer les performances des modèles, la réduction de la dimensionnalité est spécifiquement axée sur la réduction du nombre de caractéristiques. Elle peut être considérée comme un sous-domaine de l'ingénierie des caractéristiques.

De même, si la réduction de la dimensionnalité aboutit à la compression des données, son objectif principal est d'améliorer les performances du modèle, et pas seulement de réduire la taille du stockage, ce qui est l'objectif principal des algorithmes généraux de compression des données tels que ZIP.

Applications en IA et ML

La réduction de la dimensionnalité est essentielle dans de nombreuses applications d'intelligence artificielle (IA) et de ML :

  • Vision par ordinateur (VA) : Les images contiennent de grandes quantités de données sur les pixels. L'extraction de caractéristiques inhérente aux réseaux neuronaux convolutionnels (CNN), utilisés dans des modèles comme Ultralytics YOLO, réduit cette dimensionnalité. Cela permet au modèle de se concentrer sur les modèles pertinents pour des tâches telles que la détection d'objets ou la classification d'images, ce qui accélère le traitement et améliore les performances du modèle.
  • Bioinformatique : L'analyse des données génomiques implique souvent des ensembles de données comportant des milliers d'expressions génétiques (caractéristiques). La réduction de la dimensionnalité aide les chercheurs à identifier des modèles significatifs liés à des maladies ou à des fonctions biologiques, ce qui rend les données biologiques complexes plus faciles à gérer. Les études publiées dans des revues telles que Nature Methods utilisent souvent ces techniques.
  • Traitement du langage naturel (NLP) : Les données textuelles peuvent être représentées dans des espaces à haute dimension à l'aide de techniques telles que TF-IDF ou les ancrages de mots. La réduction de la dimensionnalité permet de simplifier ces représentations pour des tâches telles que la classification des documents ou l'analyse des sentiments.
  • Visualisation des données : Des techniques comme le t-SNE sont inestimables pour tracer des ensembles de données à haute dimension en 2D ou en 3D. Cela permet aux humains d'inspecter visuellement et de comprendre les structures ou les relations potentielles au sein des données, ce qui est utile pour gérer des ensembles de données et des modèles complexes dans des plateformes comme Ultralytics HUB.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers