Glossario

Database vettoriale

Scoprite come i database vettoriali rivoluzionano l'IA consentendo ricerche efficienti di similarità, ricerca semantica e rilevamento di anomalie per i sistemi intelligenti.

Un database vettoriale è un tipo di database specializzato progettato per memorizzare, gestire e cercare tra i dati ad alta dimensionalità noti come embeddings vettoriali. A differenza dei tradizionali database relazionali, ottimizzati per i dati strutturati e le corrispondenze esatte, i database vettoriali eccellono nella ricerca di elementi basati sulla loro somiglianza. Questa capacità è fondamentale per un'ampia gamma di applicazioni moderne di IA, dai motori di raccomandazione alla ricerca visiva, e li rende un componente critico dell'infrastruttura di apprendimento automatico. Essi fungono da memoria a lungo termine per i modelli di IA, consentendo loro di sfruttare i modelli complessi appresi durante l'addestramento.

Come funzionano i database vettoriali

La funzione principale di un database vettoriale è quella di eseguire in modo efficiente una ricerca vettoriale. Il processo inizia quando i dati non strutturati - come un'immagine, un blocco di testo o un clip audio - vengono passati attraverso un modello di deep learning per creare una rappresentazione numerica chiamata embedding vettoriale. Queste incorporazioni catturano il significato semantico dei dati originali.

Il database vettoriale memorizza quindi queste incorporazioni e le indicizza utilizzando algoritmi specializzati. Quando viene effettuata un'interrogazione (ad esempio, una ricerca con un'immagine), anche i dati dell'interrogazione vengono convertiti in un vettore. Il database confronta quindi il vettore dell'interrogazione con i vettori memorizzati utilizzando metriche di somiglianza come la somiglianza del coseno o la distanza euclidea per trovare gli elementi più "vicini" o più simili. Per eseguire questa operazione su scala con milioni o miliardi di vettori, i database si affidano spesso ad algoritmi di prossimità approssimata (ANN) molto efficienti.

Applicazioni del mondo reale

I database vettoriali alimentano molte funzioni intelligenti con cui gli utenti interagiscono quotidianamente.

  1. Ricerca visiva nell'e-commerce: Un utente può caricare la foto di un prodotto che gli piace. Un modello di computer vision, come il modello YOLO11 di Ultralytics, genera un embedding per l'immagine. Questo embedding viene utilizzato per interrogare il database vettoriale del sito di e-commerce, che contiene gli embedding dell'intero catalogo di prodotti. Il database restituisce i vettori più simili, consentendo al sito di mostrare prodotti visivamente identici o stilisticamente correlati, una caratteristica fondamentale dell'intelligenza artificiale per la vendita al dettaglio.
  2. Ricerca semantica per i documenti: Un'azienda può creare embedding per tutti i suoi documenti interni, come relazioni e ticket di assistenza. Un dipendente può quindi effettuare una ricerca utilizzando una domanda in linguaggio naturale come "Quali sono stati i nostri profitti nell'ultimo trimestre?" invece di parole chiave specifiche. Il modello di elaborazione del linguaggio naturale (NLP) converte questa domanda in un embedding e il database vettoriale trova i documenti i cui embedding sono semanticamente più vicini, fornendo informazioni pertinenti anche se la formulazione esatta non corrisponde. Si tratta di una componente fondamentale dei sistemi di retrieval-augmented generation (RAG).

Database vettoriali e concetti affini

È utile differenziare i database vettoriali da termini strettamente correlati:

  • Embeddings: Gli embeddings sono rappresentazioni vettoriali dei dati. Il database vettoriale è il sistema specializzato costruito per memorizzare, indicizzare e interrogare questi embeddings in modo efficiente. Pensate agli embeddings come ai libri e al database vettoriale come alla biblioteca intelligente che li organizza.
  • Ricerca vettoriale: La ricerca vettoriale è il processo di ricerca dei vettori più simili in un insieme di dati. Un database vettoriale è la tecnologia sottostante che rende questo processo veloce e scalabile, soprattutto per l'inferenza in tempo reale.

Questi componenti sono gestiti come parte di un flusso di lavoro MLOps completo, spesso facilitato da piattaforme come Ultralytics HUB per la gestione end-to-end di modelli e set di dati.

Banche dati vettoriali più diffuse

Sono disponibili diversi database vettoriali open-source e commerciali, ciascuno con punti di forza diversi in termini di scalabilità, distribuzione e funzionalità. Tra i più utilizzati vi sono:

  • Pinecone: Un popolare servizio di database vettoriale completamente gestito.
  • Milvus: un database vettoriale open-source progettato per alte prestazioni e scalabilità.
  • Weaviate: Un database open-source, nativo per l'intelligenza artificiale, con funzionalità a grafo.
  • Chroma DB: un database di incorporamento open-source incentrato sulla semplicità e sull'esperienza degli sviluppatori.
  • Qdrant: Un database vettoriale open-source e un motore di ricerca delle somiglianze scritto in Rust per garantire prestazioni e sicurezza.

Unitevi alla comunità di Ultralytics

Entrate a far parte del futuro dell'IA. Connettetevi, collaborate e crescete con gli innovatori globali.

Iscriviti ora
Link copiato negli appunti