مسرد المصطلحات

تضمين الجار العشوائي الموزع ر الموزع ر (t-SNE)

استكشف t-SNE، وهي تقنية قوية لتصور البيانات عالية الأبعاد. تعرف على استخداماتها وفوائدها وتطبيقاتها في الذكاء الاصطناعي والتعلم الآلي.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

التضمين العشوائي للجوار الموزع (t-SNE) هي تقنية قوية تُستخدم لتقليل الأبعاد، وهي مصممة بشكل أساسي لتصور مجموعات البيانات عالية الأبعاد في فضاء منخفض الأبعاد، عادةً ما يكون ثنائي أو ثلاثي الأبعاد. تم تطوير هذه التقنية من قبل لورينس فان دير ماتن وجيفري هينتون، وتتفوق هذه التقنية في الكشف عن البنية المحلية الأساسية للبيانات، مثل التكتلات والمتشعبات. وهذا يجعل من السهل تفسير مجموعات البيانات المعقدة التي تم إنشاؤها أو معالجتها بواسطة نماذج الذكاء الاصطناعي والتعلم الآلي من خلال الفحص البصري. ويُستخدم على نطاق واسع في مجالات مختلفة، بما في ذلك الرؤية الحاسوبية ومعالجة اللغات الطبيعية.

كيف يعمل t-SNE

تتمثل الفكرة الأساسية وراء t-SNE في تعيين نقاط البيانات عالية الأبعاد إلى فضاء منخفض الأبعاد (على سبيل المثال، مخطط ثنائي الأبعاد) بطريقة تحافظ على أوجه التشابه بين النقاط. وهي تقوم بنمذجة التشابه بين أزواج النقاط عالية الأبعاد كاحتمالات مشروطة ثم تحاول إيجاد تضمين منخفض الأبعاد حيث تتشابه الاحتمالات الشرطية بين النقاط المعينة. تركز هذه العملية على الاحتفاظ بالهيكل المحلي - يجب أن تظل النقاط المتقاربة في الفضاء عالي الأبعاد متقاربة في الخريطة منخفضة الأبعاد.

على عكس الطرق الخطية مثل تحليل المكوّنات الرئيسية (PCA)، فإن التحليل المتشعب غير الخطي والاحتمالي. وهذا يسمح لها بالتقاط العلاقات المعقدة وغير الخطية، مثل المتشعبات المنحنية، التي قد يغفلها تحليل المكونات الرئيسية. تقوم الخوارزمية بحساب أوجه التشابه باستخدام توزيع غاوسي في الفضاء عالي الأبعاد وتوزيع ت طلابي على شكل حرف t (بدرجة حرية واحدة) في الفضاء منخفض الأبعاد. يساعد استخدام التوزيع على شكل حرف t على فصل النقاط المتباينة عن بعضها البعض في الخريطة منخفضة الأبعاد، مما يخفف من "مشكلة التزاحم" حيث تميل النقاط إلى التكتل معًا. يتم العثور على التضمين الأمثل من خلال تقليل التباعد (وتحديدًا تباعد كولباك-ليبلر) بين التوزيعين الاحتماليين باستخدام تقنيات التحسين مثل النسب المتدرجة. للحصول على فهم تقني متعمق، يرجى الرجوع إلى الورقة البحثية الأصلية t-SNE.

t-SNE مقابل PCA

على الرغم من أن كلا من t-SNE و PCA هما تقنيتان شائعتان لتقليل الأبعاد، إلا أنهما تختلفان بشكل كبير:

  • الخطية: تحليل PCA هو تقنية خطية، في حين أن t-SNE غير خطية. يجد تحليل PCA المكونات الرئيسية التي تزيد من التباين إلى أقصى حد، مما يؤدي بشكل أساسي إلى تدوير البيانات.
  • التركيز: يهدف تحليل PCA إلى الحفاظ على البنية العامة والتباين الأقصى في البيانات، بينما يعطي تحليل PCA الأولوية للحفاظ على البنية المحلية (أحياء النقاط).
  • حالة الاستخدام: غالبًا ما يُستخدم تحليل PCA لضغط البيانات وتقليل الضوضاء وكخطوة معالجة مسبقة للبيانات قبل تطبيق خوارزميات أخرى للتعلم الآلي. يُستخدم تحليل PCA في المقام الأول لتصور البيانات واستكشافها نظرًا لقدرته على الكشف عن المجموعات.
  • قابلية التفسير: تمثل المحاور في مخطط PCA المكونات الرئيسية ولها تفسير رياضي واضح يتعلق بالتباين. أما المحاور والمسافات بين المجموعات في مخطط t-SNE فليس لها مثل هذا التفسير العام المباشر؛ حيث ينصب التركيز على التجميع النسبي للنقاط.

تطبيقات في الذكاء الاصطناعي والتعلم الآلي

يُستخدم t-SNE كأداة تصور لا تقدر بثمن لفهم البيانات المعقدة عالية الأبعاد التي غالبًا ما تصادفها في خطوط أنابيب الذكاء الاصطناعي والتعلم الآلي، مثل استكشاف التضمينات التي تعلمتها نماذج التعلم العميق.

الاعتبارات

على الرغم من قوتها في التصور، إلا أن t-SNE لها بعض الاعتبارات:

  • التكلفة الحسابية: يمكن أن تكون مكلفة حسابيًا وبطيئة بالنسبة لمجموعات البيانات الكبيرة جدًا بسبب حساباتها الزوجية. يمكن أن تساعد تقنيات مثل تقريب t-SNE أو تطبيق PCA أولاً.
  • المعلمات المفرطة: يمكن أن تكون النتائج حساسة للمعاملات المفرطة مثل "الإرباك" (المتعلقة بعدد الجيران الأقرب في الاعتبار) وعدد التكرارات لنسب التدرج.
  • البنية العالمية: يركّز t-SNE على البنية المحلية؛ قد لا تعكس المسافات النسبية بين المجموعات في الرسم البياني النهائي بدقة الفصل في الفضاء الأصلي عالي الأبعاد. قد تكون أحجام المجموعات مضللة أيضًا. تتوفّر تطبيقات في مكتبات مثل Scikit-learn وأطر مثل PyTorch.
قراءة الكل