مسرد المصطلحات

تضمين الجار العشوائي الموزع ر الموزع ر (t-SNE)

استكشف t-SNE، وهي تقنية قوية لتصور البيانات عالية الأبعاد. تعرف على استخداماتها وفوائدها وتطبيقاتها في الذكاء الاصطناعي والتعلم الآلي.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

تعد تقنية تضمين الجوار العشوائي الموزع (t-SNE) تقنية شائعة تستخدم لتقليل الأبعاد، وهي مناسبة بشكل خاص لتصور مجموعات البيانات عالية الأبعاد في فضاء منخفض الأبعاد، عادةً ما يكون ثنائي أو ثلاثي الأبعاد. طورها لورينس فان دير ماتن وجيفري هينتون، وهي تتفوق في الكشف عن البنية الأساسية للبيانات، مثل التكتلات والمتشعبات، مما يسهل فهم البيانات المعقدة من خلال الفحص البصري. يُستخدم على نطاق واسع في مجالات التعلم الآلي (ML) وتحليل البيانات.

فهم الشبكة العالمية للأسرة

تتمثل الفكرة الأساسية وراء t-SNE في الحفاظ على البنية المحلية للبيانات. فهي تقوم بنمذجة التشابه بين نقاط البيانات عالية الأبعاد كاحتمالات مشروطة ثم تحاول إيجاد تضمين منخفض الأبعاد ينتج عنه توزيع احتمالات متشابه بين النقاط المعينة. وعلى عكس الطرق الخطية مثل تحليل المكوّنات الرئيسية (PCA)، فإن t-SNE غير خطية واحتمالية. وهذا يسمح لها بالتقاط العلاقات المعقدة التي قد يفوتها PCA، خاصةً عندما تقع البيانات على متشعّبات منحنية. ومع ذلك، فإن PCA أفضل في الحفاظ على الهيكل العام والتباين العام للبيانات.

تحسب الخوارزمية أوجه التشابه الزوجي بين النقاط في كل من الأبعاد العالية والمنخفضة. وتستخدم الخوارزمية توزيعًا غاوسيًا في الفضاء عالي الأبعاد وتوزيعًا على شكل حرف t (تحديدًا، توزيع الطالب على شكل حرف t مع درجة واحدة من الحرية) في الفضاء منخفض الأبعاد. يساعد استخدام التوزيع على شكل حرف t في التخفيف من "مشكلة الازدحام" (حيث تميل النقاط إلى التكتل معًا في مركز الخريطة) ويفصل النقاط المتباينة بشكل أكثر فعالية في الخريطة منخفضة الأبعاد. تتضمن العملية تقليل التباعد بين هذين التوزيعين إلى الحد الأدنى باستخدام النسب المتدرجة. للحصول على شرح تقني مفصّل، راجع ورقة t-SNE الأصلية.

تطبيقات في الذكاء الاصطناعي والتعلم الآلي

t-SNE هي في المقام الأول تقنية تصورية لا تقدر بثمن لاستكشاف وفهم البيانات عالية الأبعاد الناتجة عن نماذج الذكاء الاصطناعي. إليك بعض الأمثلة:

الاعتبارات الرئيسية

على الرغم من قوتها، إلا أن t-SNE لها خصائص يجب أن يفهمها المستخدمون:

  • التكلفة الحسابية: يمكن أن تكون طريقة t-SNE كثيفة من الناحية الحسابية، خاصةً بالنسبة لمجموعات البيانات الكبيرة جدًا، حيث تتطلب حساب أوجه التشابه بين الأزواج.
  • الحساسية المفرطة: تكون النتائج حساسة للمعاملات الفائقة، لا سيما "الحساسية المفرطة"، والتي تؤثر على عدد الجيران المحليين الذين يتم أخذهم في الاعتبار لكل نقطة. غالبًا ما يكون الضبط المناسب للمعامل الفائق ضروريًا. تقدم تطبيقات مثل تلك الموجودة في scikit-learn عناصر تحكم لهذه المعلمات.
  • التفسير: لا تتوافق أحجام المجموعات والمسافات بينها في مخطط t-SNE دائمًا بشكل مباشر مع أحجام المجموعات الفعلية أو الفواصل في الفضاء الأصلي عالي الأبعاد. فهو يكشف في المقام الأول عن أوجه التشابه والتجمعات المحلية. إنها أداة للاستكشاف بدلاً من تحليل التجميع النهائي مثل K-Means.

باختصار، تُعد T-SNE أداة قيّمة في مجموعة أدوات الذكاء الاصطناعي لتصور مجموعات البيانات المعقدة عالية الأبعاد واكتساب الحدس بشأن مجموعات البيانات المعقدة عالية الأبعاد، وهي مكملة للطرق التحليلية الأخرى.

قراءة الكل