Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

قاعدة بيانات المتجهات

اكتشف كيف تدير قواعد البيانات المتجهة التضمينات عالية الأبعاد لاسترجاع المعاني. تعلم كيفية تشغيل تطبيقات الذكاء الاصطناعي باستخدام Ultralytics والبحث عن التشابه.

قاعدة بيانات المتجهات هي نظام تخزين متخصص مصمم لإدارة وفهرسة واستعلام البيانات المتجهة عالية الأبعاد، والتي يشار إليها غالبًا باسم التضمينات. على عكس قاعدة البيانات العلائقية التقليدية، التي تنظم البيانات المنظمة في صفوف وأعمدة لمطابقة الكلمات الرئيسية بدقة، فإن قاعدة بيانات المتجهات مُحسّنة للاسترجاع الدلالي. وهي تمكّن الأنظمة الذكية من العثور على نقاط البيانات المتشابهة من الناحية المفاهيمية بدلاً من المتطابقة. هذه القدرة أساسية للبنية التحتية الحديثة للذكاء الاصطناعي (AI) ، حيث تسمح للتطبيقات بمعالجة وفهم البيانات غير المنظمة— مثل الصور والصوت والفيديو والنصوص — من خلال تحليل العلاقات الرياضية بينها. تعمل قواعد البيانات هذه كذاكرة طويلة المدى للعوامل الذكية، مما يسهل مهام مثل البحث المرئي والتوصيات المخصصة.

آلية عمل قواعد بيانات المتجهات

تتمحور وظيفة قاعدة البيانات المتجهة حول مفهوم الفضاء المتجه، حيث يتم تعيين عناصر البيانات كنقاط في نظام إحداثيات متعدد الأبعاد. تبدأ العملية باستخراج الميزات، حيث يقوم نموذج التعلم العميق (DL) بتحويل المدخلات الأولية إلى متجهات رقمية. تستخدم قاعدة البيانات المتجهة هذه المتجهات الرقمية لتنفيذ عمليات البحث والتحليل.

  1. الاستيعاب: تتم معالجة البيانات بواسطة شبكة عصبية، مثل شبكة YOLO26 المتطورة، لإنشاء تضمينات. تعمل هذه المتجهات على ضغط المعنى الدلالي للمدخلات في قائمة كثيفة من الأرقام العائمة.
  2. الفهرسة: لضمان انخفاض زمن الاستدلال أثناء الاسترجاع، تقوم قاعدة البيانات بتنظيم هذه المتجهات باستخدام خوارزميات متخصصة. تسمح تقنيات مثل Hierarchical Navigable Small World (HNSW) أو Inverted File Index (IVF) للنظام بالتنقل بين مليارات المتجهات بكفاءة دون مسح كل إدخال على حدة.
  3. الاستعلام: عندما يرسل المستخدم استعلام بحث (على سبيل المثال، صورة لنمط حذاء معين)، يقوم النظام بتحويل الاستعلام إلى متجه ويحسب قربه من المتجهات المخزنة باستخدام مقاييس المسافة مثل تشابه جيب التمام أو المسافة الأوقليدية.
  4. الاسترجاع: تعرض قاعدة البيانات "أقرب النتائج" التي تمثل النتائج الأكثر صلة بالسياق.

يوضح Python التالي Python كيفية إنشاء تضمينات باستخدام معيار ultralytics النموذج، وهو الخطوة الأساسية قبل ملء قاعدة بيانات متجهة.

from ultralytics import YOLO

# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")

# Generate feature embeddings for an image file
# The 'embed' method creates the vector representation needed for the database
results = model.embed("https://ultralytics.com/images/bus.jpg")

# Output the shape of the resulting embedding vector
print(f"Embedding vector shape: {results[0].shape}")

تطبيقات واقعية

قواعد البيانات المتجهة هي المحرك وراء العديد من تطبيقات الرؤية الحاسوبية (CV) ومعالجة اللغة الطبيعية (NLP) المتقدمة المستخدمة في بيئات المؤسسات اليوم. تستخدم قواعد البيانات المتجهة في العديد من التطبيقات الحديثة، مثل

  • الاسترجاع المعزز بالتوليد (RAG): في عصر الذكاء الاصطناعي التوليدي، تسمح قواعد البيانات المتجهة لنماذج اللغة الكبيرة (LLMs) بالوصول إلى مكتبة ضخمة من البيانات الخاصة والمحدثة. من خلال استرجاع المستندات ذات الصلة بناءً على المعنى الدلالي لمدخلات المستخدم ، يقلل النظام من الهلوسة في نماذج اللغة الكبيرة ويقدم استجابات واقعية ومراعية للسياق.
  • محركات التوصيات المرئية: في الذكاء الاصطناعي في مجال البيع بالتجزئة، تستخدم المنصات قواعد بيانات متجهة لتشغيل ميزات "تسوق أنماط مماثلة". إذا شاهد المستخدم فستانًا صيفيًا معينًا، فإن النظام يستعلم قاعدة البيانات عن صور منتجات أخرى ذات تضمينات مرئية مماثلة — أنماط وقصات وألوان متطابقة — مما يوفر تجربة مستخدم أفضل من التصفية البسيطة القائمة على العلامات.
  • كشف الشذوذ والتهديدات: تستفيد أنظمة الأمان من قواعد بيانات المتجهات في كشف الشذوذ. من خلال تخزين تضمينات السلوك "الطبيعي" أو الموظفين المصرح لهم، يمكن للنظام على الفور تحديد الحالات الشاذة التي تقع خارج المجموعة المتوقعة في الفضاء المتجه، مما يعزز أمن البيانات ومراقبة المرافق.

التفريق بين المفاهيم ذات الصلة

لتنفيذ هذه الأنظمة بفعالية، من المفيد التمييز بين قاعدة بيانات المتجهات والتقنيات ذات الصلة في مجال عمليات التعلم الآلي (MLOps) .

  • قاعدة بيانات المتجهات مقابل البحث المتجه: البحث المتجه هو الإجراء أو العملية الحسابية للعثور على متجهات متشابهة (الطريقة). قاعدة بيانات المتجهات هي البنية التحتية القوية التي تم إنشاؤها لتخزين البيانات وإدارة الفهرس وإجراء عمليات البحث هذه على نطاق واسع (المكان).
  • قاعدة بيانات المتجهات مقابل مخزن الميزات: مخزن الميزات هو مستودع مركزي لإدارة الميزات المستخدمة في تدريب النماذج والاستدلال، مما يضمن الاتساق. على الرغم من أنه يتعامل مع بيانات الميزات، إلا أنه ليس مُحسّنًا بشكل أساسي لاستعلامات الاسترجاع القائمة على التشابه التي تحدد قاعدة بيانات المتجهات.
  • قاعدة بيانات متجهة مقابل بحيرة البيانات: تخزن بحيرة البيانات كميات هائلة من البيانات الأولية بتنسيقها الأصلي. تخزن قاعدة البيانات المتجهة التمثيلات الرياضية المعالجة (التضمينات) لتلك البيانات، والمُحسّنة خصيصًا للبحث عن التشابه.

التكامل مع عمليات سير عمل الذكاء الاصطناعي الحديثة

غالبًا ما يتضمن تنفيذ قاعدة بيانات متجهة خط أنابيب حيث تعمل نماذج مثل YOLO26 الفعالة كمحرك تضمين. تعالج هذه النماذج البيانات المرئية على الحافة أو في السحابة، ويتم دفع المتجهات الناتجة إلى حلول مثل Pinecone أو Milvus أو Qdrant.

بالنسبة للفرق التي تسعى إلى تبسيط دورة الحياة هذه بالكامل — بدءًا من تنظيم البيانات والتعليق التلقائي وحتى تدريب النماذج ونشرها — توفر Ultralytics بيئة شاملة . من خلال دمج تدريب النماذج مع استراتيجيات النشر الفعالة، يمكن للمطورين ضمان دقة التضمينات التي تغذي قواعد بياناتهم المتجهة، مما يؤدي إلى نتائج بحث عالية الجودة ووكلاء ذكاء اصطناعي أكثر ذكاءً .

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن