Sözlük

Vektör Arama

Vektör aramanın NLP, görsel arama, öneri sistemleri ve daha fazlası için veri erişiminde anlamsal benzerlik sağlayarak yapay zekada nasıl devrim yarattığını keşfedin!

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Vektör Arama, Yapay Zeka (AI) ve Makine Öğreniminde (ML) sadece eşleşen anahtar kelimeler yerine anlamsal olarak benzer öğeleri bulmak için kullanılan güçlü bir tekniktir. Metin belgeleri, görüntüler, ses klipleri veya kullanıcı profilleri gibi veri noktalarını gömme adı verilen sayısal vektörler olarak temsil ederek çalışır. Bu katıştırmalar verilerin altında yatan anlamı veya özellikleri yakalar. Vektör araması daha sonra bir veri kümesindeki belirli bir sorgu vektörüne yüksek boyutlu bir uzayda "en yakın" olan vektörleri, tipik olarak kosinüs benzerliği veya Öklid mesafesi gibi mesafe ölçütlerini kullanarak bulur. Bu, geleneksel yöntemlere kıyasla daha incelikli ve bağlama duyarlı arama yapılmasına olanak tanır.

Vektör Arama Nasıl Çalışır?

Süreç tipik olarak birkaç temel adımı içerir:

  1. Gömme Oluşturma: Veriler, metin için BERT veya görüntüler için Vision Transformers (ViT) gibi önceden eğitilmiş derin öğrenme (DL) modelleri kullanılarak yüksek boyutlu vektörlere (gömme) dönüştürülür. Bu modeller, anlamlı temsiller öğrenmek için geniş veri kümeleri üzerinde eğitilir. Mesela, Ultralytics YOLO Öncelikle nesne algılama için bilinen modeller, görsel arama görevleri için potansiyel olarak uyarlanabilecek özellik vektörleri de üretir.
  2. İndeksleme: Oluşturulan vektörler özel bir vektör veritabanında saklanır ve indekslenir. Bu veritabanları, genellikle HNSW (Hierarchical Navigable Small World) veya ScaNN (Scalable Nearest Neighbors) gibi Yaklaşık En Yakın Komşu (YSA) algoritmaları kullanılarak yüksek boyutlu verileri verimli bir şekilde sorgulamak için optimize edilmiştir. YSA teknikleri, önemli hız iyileştirmeleri için az miktarda doğruluğu takas ederek vektör aramayı büyük veri kümeleri için uygulanabilir hale getirir.
  3. Sorgulama: Bir arama sorgusu yapıldığında (örneğin, bir metin cümlesi veya bir görüntü), ilk olarak aynı gömme modeli kullanılarak aynı vektör formatına dönüştürülür.
  4. Benzerlik Hesaplaması: Vektör veritabanı daha sonra seçilen bir mesafe metriğine (örneğin, kosinüs benzerliği, Öklid mesafesi, nokta çarpımı) dayalı olarak sorgu vektörüne en çok benzeyen vektörleri bulmak için dizininde arama yapar.
  5. Geri alma: En yakın vektörlere karşılık gelen öğeler arama sonuçları olarak döndürülür.

Temel Kavramlar ve Teknolojiler

  • Vektör Gömülmeleri: Anlamsal anlamı yakalayan sayısal temsiller. Modeller bunları ImageNet gibi büyük veri kümeleri üzerinde eğitim sırasında öğrenir.
  • Vektör Veritabanları: Pinecone, Weaviate, Milvus ve Chroma DB gibi sistemler vektörleri depolamak ve sorgulamak için tasarlanmıştır.
  • Benzerlik Metrikleri: Vektörler arasındaki "yakınlığı" ölçmek için kullanılan matematiksel fonksiyonlar (örneğin, Kosinüs Benzerliği, Öklid Uzaklığı).
  • Yaklaşık En Yakın Komşu (YSA): Muhtemel en yakın komşuları verimli bir şekilde bulan algoritmalar, büyük ölçekte performans için çok önemlidir. Faiss (Facebook AI Similarity Search) gibi kütüphaneler uygulamalar sağlar.
  • Boyut Azaltma: PCA (Temel Bileşen Analizi) gibi teknikler bazen vektör boyutlarını azaltmak için kullanılabilir ve potansiyel olarak bir miktar bilgi kaybı pahasına aramayı hızlandırabilir.

Gerçek Dünya Uygulamaları

Vektör araması çok çeşitli akıllı uygulamalara olanak sağlar:

  • Anlamsal Arama: Sorgu amacını anahtar kelimelerin ötesinde anlamak için arama motorlarını ( Google Arama gibi) veya dahili bilgi tabanlarını güçlendirmek. Örneğin, "sağlıklı akşam yemeği fikirleri" araması, belgelerde tam olarak bu kelimeler bulunmasa bile, vektör katıştırmaları anlam bakımından yakın olduğu için salatalar, ızgara tavuk ve kinoa kaseleri için tarifler getirebilir.
  • Öneri Sistemleri: Netflix veya Spotify gibi platformlar, vektör temsillerindeki benzerliklere dayanarak bir kullanıcının daha önce beğendiği veya etkileşimde bulunduğu öğelere benzer öğeleri (filmler, şarkılar, ürünler) bulmak için vektör aramasını kullanır.
  • Görüntü Tanıma ve Arama: Görsel olarak benzer görüntüleri bulma (tersine görüntü arama) veya e-ticaret için fotoğraflardaki ürünleri tanımlama. Bu, Bilgisayarla Görme (CV) içinde temel bir uygulama alanıdır.
  • Anomali Tespiti: Vektörleri normal veri vektörleri kümelerinden uzakta olan olağandışı veri noktalarının (örneğin, hileli işlemler, ağ izinsiz girişleri) belirlenmesi.
  • Doğal Dil İşleme (NLP): Soru yanıtlama, yineleme algılama ve metin verilerini konuya veya duyarlılığa göre kümeleme gibi uygulamaları geliştirme.
  • Geri Alım-Artırılmış Üretim (RAG): Büyük Dil Modellerinde (LLM'ler) bir yanıt oluşturmadan önce bir bilgi tabanından ilgili bağlamı almak için kullanılır, olgusal doğruluğu artırır ve halüsinasyonları azaltır.

Vektör Araması vs Anahtar Kelime Araması

Temel fark, benzerliğin nasıl belirlendiğindedir:

  • Anahtar Kelime Arama: Ters çevrilmiş dizinler gibi teknikler kullanarak tam kelimeleri veya kelime öbeklerini eşleştirir. Eşanlamlılar, bağlam ve dildeki varyasyonlarla mücadele eder.
  • Vektör Arama: Vektör katıştırmalarında yakalanan anlamsal benzerliğe dayalı eşleştirmeler yapar. Anahtar kelimeler tam olarak eşleşmese bile, altta yatan amacı veya kavramı anlayarak ilgili sonuçları bulabilir.

Vektör araması daha incelikli sonuçlar sunarken, model ve veri kümesi yönetimi için Ultralytics HUB gibi platformlar aracılığıyla genellikle verimli bir şekilde yönetilen gömme oluşturma ve dizinleme için önemli hesaplama kaynakları gerektirir. Modern sistemler, her bir yaklaşımın güçlü yönlerinden yararlanmak için genellikle hem anahtar kelime hem de vektör aramasını (hibrit arama) birleştirir. Model dağıtımı ve performans ölçümleri gibi ilgili kavramların bu sistemlerde nasıl uygulandığını anlamak için çeşitli eğitimleri ve kılavuzları inceleyebilirsiniz.

Tümünü okuyun