التضمين العشوائي للجوار الموزّع على شكل حرف t هو تقنية قوية لتقليل الأبعاد تُستخدم بشكل أساسي لتصور البيانات عالية الأبعاد في فضاء منخفض الأبعاد، عادةً ما يكون ثنائي أو ثلاثي الأبعاد. وهي فعالة بشكل خاص في الكشف عن البنية المحلية للبيانات، مما يجعلها أداة قيمة في التعلم الآلي وتحليل البيانات لفهم مجموعات البيانات المعقدة من خلال تمثيلات بصرية بديهية.
فهم الشبكة العالمية للأسرة
في جوهرها، صُممت t-SNE لتعيين نقاط البيانات عالية الأبعاد إلى بُعد أقل مع الحفاظ على أوجه التشابه بين البيانات الأصلية قدر الإمكان. وعلى عكس تقنيات تقليل الأبعاد الخطية مثل تحليل المكوّنات الرئيسية (PCA)، فإن t-SNE غير خطية، مما يسمح لها بالتقاط العلاقات والأنماط المعقدة التي قد تفوتها الطرق الخطية. هذه الخاصية غير الخطية تجعلها بارعة بشكل خاص في التعامل مع مجموعات البيانات المعقدة في العالم الحقيقي حيث تكون العلاقات في كثير من الأحيان منحنية أو متشعبة.
تعمل الخوارزمية من خلال إنشاء توزيع احتمالي أولاً على أزواج من نقاط البيانات عالية الأبعاد لتمثيل أوجه التشابه. ثم تحدد توزيعًا احتماليًا مشابهًا على النقاط في الخريطة منخفضة الأبعاد. الهدف من t-SNE هو تقليل التباعد بين هذين التوزيعين، مما يؤدي بشكل مثالي إلى خريطة منخفضة الأبعاد تعكس بنية البيانات الأصلية، خاصةً الأحياء المحلية. تتضمن هذه العملية عمليات حسابية معقدة باستخدام مفاهيم من الاحتمالات وتحسين التدرج المنحدر. لمزيد من التعمق الفني، يمكنك الرجوع إلى الورقة البحثية الأصلية التي أعدها فان دير ماتن وهينتون (2008).
تطبيقات في الذكاء الاصطناعي والتعلم الآلي
يُستخدم t-SNE على نطاق واسع في مجالات مختلفة في الذكاء الاصطناعي والتعلم الآلي نظرًا لفعاليته في تصور مجموعات البيانات المعقدة. فيما يلي بعض الأمثلة الملموسة:
- تحليل الصور الطبية: في تحليل الصور الطبية، يمكن استخدام t-SNE لتصور متجهات السمات عالية الأبعاد المستخرجة من الصور الطبية مثل التصوير بالرنين المغناطيسي أو الأشعة المقطعية. على سبيل المثال، في مجال الكشف عن أورام الدماغ، يمكن اختزال السمات من مناطق مختلفة من مناطق الاهتمام إلى بُعدين باستخدام t-SNE، مما يسمح للباحثين والأطباء بتحديد مجموعات من خصائص الصور المتشابهة التي قد تتوافق مع أنواع أو مراحل مختلفة من الورم. يمكن أن يساعد هذا التجميع البصري في التشخيص وفهم أنماط المرض، مما قد يحسن دقة أدوات التشخيص المعتمدة على الذكاء الاصطناعي.
- معالجة اللغات الطبيعية (NLP): في معالجة اللغات الطبيعية (NLP)، تُعدّ t-SNE ذات قيمة لا تُقدّر بثمن لتصور تضمينات الكلمات. تضمينات الكلمات عبارة عن تمثيلات متجهة عالية الأبعاد للكلمات التي تلتقط العلاقات الدلالية. من خلال تطبيق t-SNE على هذه التضمينات، يمكن للمرء إسقاطها في فضاء ثنائي الأبعاد أو ثلاثي الأبعاد وملاحظة كيفية تجميع الكلمات المتشابهة دلاليًا معًا. على سبيل المثال، قد تُشكّل كلمات مثل "ملك" و"ملكة" و"أمير" و"أميرة" مجموعة واحدة، بينما تُشكّل الكلمات المتعلقة بالطقس أو الطعام مجموعات منفصلة. يساعد هذا التصور في فهم جودة وبنية تضمينات الكلمات التي تم إنشاؤها بواسطة نماذج مثل BERT أو GPT، وغالبًا ما يتم استخدامها في تطبيقات البحث الدلالي.
الاعتبارات الرئيسية
على الرغم من أن t-SNE أداة قوية، إلا أنه من المهم أن تكون على دراية بخصائصها وحدودها:
- التكلفة الحسابية: يمكن أن يكون حلّ t-SNE مكثفًا من الناحية الحسابية، خاصةً بالنسبة لمجموعات البيانات الكبيرة جدًا، حيث يتزايد تعقيده بشكل تربيعي مع عدد نقاط البيانات. بالنسبة للتطبيقات واسعة النطاق، ضع في اعتبارك طرقًا لتسريع t-SNE أو استخدامه على مجموعة فرعية تمثيلية من بياناتك.
- التفسير: بينما تتفوق t-SNE في الكشف عن البنية المحلية والتكتلات المحلية، فإن المسافات العالمية في مخطط t-SNE قد لا تعكس بدقة المسافات العالمية في الفضاء الأصلي عالي الأبعاد. ركز على تفسير التكتلات والأحياء بدلاً من المسافات الدقيقة بين النقاط البعيدة.
- الإرباك: يحتوي t-SNE على معلمة تسمى "الإرباك" والتي تؤثر على التصور الناتج. وهو يتحكم تقريبًا في عدد الجيران الأقرب التي يتم أخذها في الاعتبار عند بناء التوزيعات الاحتمالية. يمكن أن يؤثر ضبط معيار التعقيد على التصور بشكل كبير، وغالبًا ما يوصى بتجربة قيم تعقيد مختلفة للعثور على التصور الأكثر إفادة لمجموعة بيانات معينة. وتوفر أدوات مثل scikit-learn في Python تطبيقات ل t-SNE مع معيار تعقيد قابل للتعديل ومعلمات أخرى.
باختصار، تُعد تقنية t-SNE تقنية أساسية لتقليل الأبعاد لتصور البيانات عالية الأبعاد، خاصةً عندما يكون فهم بنية البيانات المحلية وأنماط المجموعات أمرًا بالغ الأهمية في مختلف تطبيقات الذكاء الاصطناعي والرؤية الحاسوبية.