Emboîtements
Découvrez ce que sont les embeddings et comment ils alimentent l'IA en capturant les relations sémantiques dans les données pour le NLP, les recommandations et la vision par ordinateur.
Les embeddings sont une pierre angulaire de l'apprentissage automatique moderne, représentant une méthode puissante pour convertir des données à haute dimension comme des mots, des images ou même des utilisateurs en vecteurs numériques significatifs, denses et à faible dimension. L'objectif premier d'une intégration est de capturer les relations sémantiques et le contexte sous-jacent des données d'origine. Dans cet espace vectoriel, les éléments ayant des significations ou des caractéristiques similaires sont placés plus près les uns des autres. Cela permet aux modèles d'intelligence artificielle d' effectuer des tâches complexes de raisonnement et de similarité qui seraient impossibles à réaliser avec des données brutes et non structurées.
Applications et exemples
Les encastrements sont fondamentaux pour un large éventail d'applications de l'intelligence artificielle, du traitement du langage naturel (NLP) à la vision par ordinateur.
- Moteurs de recommandation pour le commerce électronique: Les systèmes de recommandation utilisent des encastrements pour représenter à la fois les utilisateurs et les produits. Si un utilisateur achète ou consulte fréquemment des articles présentant des enchâssements similaires (par exemple, divers types de vêtements de course), le système peut identifier d'autres produits dans ce voisinage vectoriel (comme des gels énergétiques ou des packs d'hydratation) et les recommander. Cette méthode est bien plus efficace qu'une simple correspondance de mots-clés.
- Recherche sémantique et recherche d'images: Au lieu de s'appuyer sur des balises ou des métadonnées, les systèmes de recherche sémantique utilisent des enchâssements pour trouver des résultats sur la base d'une signification conceptuelle. Un utilisateur peut rechercher "photos de vacances d'été" et le système retrouvera des images de plages, de montagnes et de scènes de voyage, même si ces mots exacts ne figurent pas dans la description de l'image. Ces résultats sont obtenus grâce à des modèles tels que CLIP, qui génèrent des encastrements alignés pour le texte et les images, ce qui permet de disposer de puissantes capacités de modélisation multimodale. Ce même principe permet une recherche visuelle puissante, une fonction clé dans de nombreuses applications modernes. Vous pouvez même créer votre propre recherche à l'aide de notre guide de recherche par similarité.
Parmi les autres applications, citons la découverte de médicaments, où les molécules sont intégrées pour prédire les interactions, et les services d'écoute de musique en continu qui recommandent des chansons ayant des caractéristiques audio similaires.
Emboîtements et concepts apparentés
Il est utile de distinguer les "embeddings" des termes apparentés :
- Embeddings vs. Feature Extraction: Les embeddings sont une forme sophistiquée et souvent automatisée d'extraction de caractéristiques obtenue grâce à l'apprentissage profond. Alors que l'ingénierie traditionnelle des caractéristiques peut impliquer la définition manuelle des caractéristiques (par exemple, les histogrammes de couleur pour les images), les embeddings apprennent les caractéristiques pertinentes directement à partir des données au cours de l'apprentissage.
- Embeddings vs. recherche vectorielle / bases de données vectorielles: Les embeddings sont les représentations vectorielles des éléments de données. La recherche vectorielle est le processus d'interrogation d'une collection d'encastrements pour trouver ceux qui sont les plus similaires (les plus proches) à un vecteur d'interrogation, souvent en utilisant des algorithmes de voisinage approximatif (ANN) pour des raisons d'efficacité. Les bases de données vectorielles (comme Pinecone ou Milvus) sont des bases de données spécialisées optimisées pour le stockage, l'indexation et l'exécution de recherches vectorielles rapides sur de grands volumes d'encastrements.
- Embeddings vs. tokenisation: La tokenisation est le processus de décomposition du texte en unités plus petites (tokens). Ces tokens sont ensuite mis en correspondance avec les enregistrements. La tokenisation est donc une étape préliminaire à la création ou à l'extraction de la représentation de l'intégration. Des modèles NLP de référence tels que BERT et GPT-4 reposent sur ce processus en deux étapes.
Les embeddings constituent un moyen puissant de représenter les données pour les modèles d'apprentissage automatique, leur permettant de comprendre les similitudes sémantiques et les modèles complexes dans divers types de données. Ils font partie intégrante des capacités des plateformes modernes d'apprentissage automatique comme Ultralytics HUB, qui simplifie la création de modèles d'IA avancés pour des tâches telles que la détection d'objets et la classification d'images.
Comment sont créés les emboîtements
Les embeddings sont généralement appris automatiquement par un modèle d'apprentissage profond au cours du processus de formation. Un réseau neuronal, souvent construit avec des frameworks comme PyTorch ou TensorFlow, est entraîné sur une tâche pertinente, comme la prédiction du mot suivant dans une phrase ou la classification d'une image. L'une des couches cachées de ce réseau est ensuite utilisée comme couche d'intégration. Au fur et à mesure que le modèle apprend à accomplir sa tâche, il ajuste les poids de cette couche, apprenant ainsi à faire correspondre chaque élément d'entrée à un vecteur qui encapsule ses caractéristiques les plus importantes. Ce processus est une forme de réduction de la dimensionnalité, qui permet de comprimer de grandes quantités d'informations dans un format compact et utile.