Glossaire

Base de données vectorielles

Découvre comment les bases de données vectorielles révolutionnent l'IA en permettant des recherches de similarités efficaces, des recherches sémantiques et la détection d'anomalies pour les systèmes intelligents.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Dans les domaines de l'intelligence artificielle (IA) et de l'apprentissage automatique (ML), qui évoluent rapidement, gérer et rechercher efficacement dans de vastes quantités de données complexes et hautement dimensionnelles constitue un défi de taille. Les bases de données vectorielles offrent une solution spécialisée conçue spécifiquement pour le stockage, l'indexation et l'interrogation de grandes collections d'intégrations vectorielles. Contrairement aux bases de données relationnelles traditionnelles optimisées pour les données structurées et les correspondances exactes de mots clés, les bases de données vectorielles excellent dans la gestion des représentations numériques de données non structurées comme le texte, les images et l'audio, permettant ainsi de puissantes recherches de similarités.

Comprendre les emboîtements de vecteurs

Le concept de base des bases de données vectorielles est l'intégration des vecteurs. Les embeddings sont des vecteurs numériques denses générés par des modèles ML, tels que Ultralytics YOLO pour les tâches de vision artificielle (CV) ou des modèles comme BERT pour le traitement du langage naturel (NLP). Ces vecteurs capturent le sens sémantique ou les caractéristiques clés des données d'origine. Par exemple, les mots ayant une signification similaire ou les images ayant un contenu similaire auront des vecteurs situés à proximité les uns des autres dans l'espace d'intégration à haute dimension. Cette propriété permet aux machines de comprendre les relations et le contexte au sein des données.

Comment fonctionnent les bases de données vectorielles

Les bases de données vectorielles stockent ces vecteurs à haute dimension et utilisent des algorithmes d'indexation spécialisés, souvent basés sur la recherche des plus proches voisins (ANN), pour effectuer des recherches de similarité efficaces. Lorsqu'une requête (représentée par un vecteur) est soumise, la base de données utilise des mesures de distance telles que la similarité cosinusoïdale ou la distance euclidienne pour trouver rapidement les vecteurs de son index qui sont les plus similaires (les plus proches) au vecteur de la requête. Ce processus, connu sous le nom de recherche vectorielle, est fondamental pour de nombreuses applications modernes de l'intelligence artificielle.

Pertinence et applications en IA/ML

La possibilité d'effectuer des recherches de similarité rapides et évolutives rend les bases de données vectorielles indispensables pour de nombreuses tâches d'IA traitant de données non structurées:

  • Systèmes de recommandation: Les plateformes telles que les services de streaming ou les sites de commerce électronique représentent les utilisateurs et les articles sous forme de vecteurs. La base de données trouve des articles dont les vecteurs sont similaires à celui d'un utilisateur (en fonction de son comportement passé) pour fournir des recommandations personnalisées.
  • Recherche sémantique: Au lieu de faire correspondre des mots-clés, la recherche sémantique comprend l'intention et le contexte derrière une requête. Les bases de données vectorielles récupèrent des documents ou des informations dont l'intégration des vecteurs est sémantiquement similaire à l'intégration de la requête.
  • Recherche visuelle et reconnaissance d'images: Les utilisateurs peuvent rechercher des images en utilisant une autre image comme requête. La base de données trouve des images ayant des caractéristiques visuelles similaires en comparant leurs encastrements vectoriels, ce qui est crucial pour des applications telles que la recherche inversée d'images ou la recherche de produits similaires dans les magasins en ligne. L 'IA pour une gestion plus intelligente des stocks des commerces de détail s'appuie souvent sur ce type de techniques.
  • Détection des anomalies: En regroupant les vecteurs de points de données normaux, les bases de données vectorielles peuvent rapidement identifier les valeurs aberrantes ou les anomalies dont les vecteurs s'éloignent de ces regroupements, ce qui est utile pour la détection des fraudes ou la surveillance des systèmes.
  • Analyse d'images médicales: Aider les radiologues en trouvant des cas similaires dans le passé en se basant sur l'intégration d'images médicales.

Principales caractéristiques des bases de données vectorielles

Les bases de données vectorielles offrent plusieurs avantages distincts pour les charges de travail de l'IA :

  • Recherche de similarité efficace : Optimisé pour trouver les voisins les plus proches dans des espaces à haute dimension à l'aide d'algorithmes ANN.
  • Évolutivité : Conçue pour gérer des milliards de vecteurs tout en maintenant un faible temps de latence pour les requêtes.
  • Filtrage des métadonnées : Permet de combiner la recherche par similarité avec les filtres de métadonnées traditionnels pour obtenir des résultats plus précis.
  • Intégration : Fournissent souvent des intégrations avec des cadres de ML populaires tels que PyTorch et TensorFlowet des plateformes comme Ultralytics HUB.

Bases de données vectorielles et bases de données traditionnelles

Les bases de données traditionnelles (comme les bases de données SQL) stockent des données structurées en lignes et en colonnes et sont optimisées pour les correspondances exactes à l'aide d'index sur des champs spécifiques. Elles ont du mal à gérer le concept de "similarité" et la haute dimensionnalité des encastrements vectoriels. Les bases de données vectorielles, comme Pinecone, Milvus ou Weaviate, sont conçues spécialement pour les données vectorielles et utilisent des techniques d'indexation et d'interrogation spécialisées qui rendent la recherche de similarité faisable et efficace à grande échelle. Le choix du bon type de base de données dépend fortement de la nature des données et des principaux modèles d'interrogation requis par l'application.

En conclusion, les bases de données vectorielles sont un élément essentiel de la pile d'IA moderne, car elles permettent de manipuler et d'interroger efficacement les encastrements vectoriels. Elles débloquent des capacités puissantes telles que la compréhension sémantique et la recherche de similarités, stimulant l'innovation dans un large éventail d'applications, de l'analyse de la détection d'objets aux moteurs de recommandation sophistiqués.

Tout lire