مسرد المصطلحات

التضمينات

تعرّف على ماهية التضمينات وكيف تعمل على تعزيز الذكاء الاصطناعي من خلال التقاط العلاقات الدلالية في البيانات من أجل معالجة اللغات الطبيعية والتوصيات والرؤية الحاسوبية.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

في مجال التعلّم الآلي والذكاء الاصطناعي، التضمينات هي طريقة لتمثيل البيانات - كلمات أو جمل أو حتى صور - كنقاط في فضاء متعدد الأبعاد، حيث يعكس موقع كل نقطة معناها الدلالي أو خصائصها. يتم تعلم هذه التمثيلات بواسطة الخوارزميات التي تحلل كميات هائلة من البيانات، مما يسمح لها بالتقاط العلاقات والأنماط المعقدة. تُعد التضمينات أساسية في تمكين الآلات من فهم ومعالجة اللغة الطبيعية وغيرها من أشكال البيانات الأخرى بشكل أكثر فعالية.

ما هي التضمينات؟

التضمينات هي في الأساس تمثيلات متجهة كثيفة للبيانات. وعلى عكس الأساليب التقليدية التي قد تمثل الكلمات أو العناصر كرموز فريدة ومستقلة، فإن التضمينات تلتقط الفروق الدقيقة في المعنى من خلال تعيين نقاط البيانات إلى متجهات من الأعداد الحقيقية في فضاء عالي الأبعاد. وغالباً ما يشار إلى هذا الفضاء باسم فضاء التضمين. والفكرة الأساسية هي أن العناصر المتشابهة سيكون لها تضمينات متشابهة، مما يعني أنها ستكون قريبة من بعضها البعض في هذا الفضاء. على سبيل المثال، في نموذج تضمين الكلمات، سيتم تمثيل الكلمات ذات المعاني المتشابهة، مثل "قطة" و"قطة صغيرة"، بمتجهات قريبة من بعضها البعض.

كيف تعمل التضمينات

يتم إنشاء التضمينات عادةً باستخدام نماذج الشبكات العصبية التي يتم تدريبها على مجموعات بيانات كبيرة. على سبيل المثال، قد يتم تدريب النموذج على التنبؤ بكلمة ما بالنظر إلى الكلمات المحيطة بها في جملة ما. أثناء عملية التدريب هذه، يتعلم النموذج تعيين كل كلمة إلى متجه بطريقة تجسد سياقها الدلالي. تُعد أبعاد مساحة التضمين معيارًا مفرطًا للنموذج، وغالبًا ما تتراوح بين بضع عشرات إلى عدة مئات. ويلتقط كل بُعد جانبًا مختلفًا من معنى البيانات أو خصائصها، على الرغم من أن هذه الجوانب لا يمكن تفسيرها دائمًا بشكل مباشر من قبل البشر.

تطبيقات التضمينات

للتضمينات مجموعة واسعة من التطبيقات في مجالات مختلفة في الذكاء الاصطناعي والتعلم الآلي. فيما يلي بعض الأمثلة البارزة:

معالجة اللغات الطبيعية (NLP)

في البرمجة اللغوية العصبية، تُستخدم تضمينات الكلمات لتشغيل تطبيقات مثل تحليل المشاعر والترجمة الآلية وتصنيف النصوص. من خلال تمثيل الكلمات كمتجهات، يمكن للنماذج إجراء عمليات رياضية لفهم النص وتوليد النص. على سبيل المثال، غالبًا ما يتم عرض المعادلة الشهيرة "ملك - رجل + امرأة = ملكة" باستخدام تضمينات الكلمات لتوضيح كيف يمكن لهذه المتجهات التقاط العلاقات الدلالية.

أنظمة التوصية

تُستخدم التضمينات لتمثيل المستخدمين والعناصر في أنظمة التوصية. من خلال تعيين المستخدمين والعناصر في نفس مساحة التضمين، يمكن للنظام التوصية بالعناصر القريبة من تفضيلات المستخدم. يتم استخدام هذا النهج من قبل شركات مثل Netflix و Amazon لاقتراح الأفلام أو المنتجات بناءً على سلوك المستخدم وخصائص العنصر.

الرؤية الحاسوبية

على الرغم من أن التضمينات أقل شيوعًا من البرمجة اللغوية العصبية، إلا أنه يمكن استخدامها أيضًا في الرؤية الحاسوبية. على سبيل المثال، يمكن تعيين الصور إلى مساحة تضمين حيث توجد صور متشابهة قريبة من بعضها البعض. ويمكن استخدام ذلك في مهام مثل استرجاع الصور أو تجميعها. من خلال الاستفادة من نماذج Ultralytics YOLO ، يمكن للمستخدمين تحسين تحليل الصور بشكل أكبر من خلال دمج إمكانات اكتشاف الكائنات وتجزئة الصور، مما يجعل التضمينات أكثر إفادة وفائدة لتطبيقات محددة.

المفاهيم الرئيسية المتعلقة بالتضمينات

نموذج الفضاء المتجه

نموذج الفضاء المتجه هو نموذج رياضي يُستخدم لتمثيل المستندات النصية أو أي كائنات على أنها متجهات للمعرفات. وهو مفهوم تأسيسي للتضمينات، حيث يتوافق كل بُعد من أبعاد المتجه مع مصطلح أو ميزة منفصلة.

تقليل البُعدية

غالبًا ما تُستخدم تقنيات مثل تحليل المكوّنات الرئيسية (PCA) والتضمين العشوائي الموزع على شكل حرف t-التضمين العشوائي الموزع على شكل حرف t-التضمين العشوائي لتصور التضمينات عالية الأبعاد في فضاء منخفض الأبعاد (على سبيل المثال، ثنائي الأبعاد أو ثلاثي الأبعاد) مع الحفاظ على المسافات النسبية بين النقاط. يساعد تقليل الأبعاد في فهم وتفسير مساحة التضمين.

التضمينات السياقية

توفر تضمينات الكلمات التقليدية مثل Word2Vec و GloVe تمثيلًا ثابتًا لكل كلمة. في المقابل، فإن التضمينات السياقية، مثل تلك التي تم إنشاؤها بواسطة BERT (تمثيلات التشفير ثنائية الاتجاه من المحولات) ونماذج المحولات الأخرى، تولد تضمينات تختلف بناءً على السياق الذي تظهر فيه الكلمة. وهذا يسمح للنموذج بالتقاط المعاني المختلفة للكلمة في الجمل المختلفة.

التضمينات مقابل تقنيات التمثيل الأخرى

ترميز واحد ساخن

يعد الترميز الأحادي الدرجة طريقة بسيطة لتمثيل البيانات الفئوية، حيث يتم تمثيل كل فئة كمتجه ثنائي يحتوي على "1" واحد والباقي "0". على عكس التضمينات، تكون المتجهات ذات الترميز الأحادي متناثرة ولا تلتقط العلاقات الدلالية بين الفئات.

حقيبة الكلمات (BoW)

يمثل نموذج كيس الكلمات النص كتكرار لكل كلمة، مع تجاهل قواعد اللغة وترتيب الكلمات. على الرغم من بساطة هذا النموذج، إلا أنه لا يلتقط المعنى الدلالي للكلمات بنفس الطريقة التي تقوم بها التضمينات.

TF-IDF

TF-IDF (التردد العكسي لتكرار المصطلح-التردد العكسي للمستند) هو إحصائية عددية تعكس مدى أهمية الكلمة بالنسبة لمستند في مجموعة أو مجموعة مستندات. فهو يجمع بين تكرار الكلمة في مستند ما وندرتها في مجموعة المستندات، مما يوفر مقياسًا للأهمية. على الرغم من فائدته، إلا أن TF-IDF لا يلتقط العلاقات الدلالية بفعالية مثل التضمينات.

استنتاج

أصبحت التضمينات حجر الزاوية في التعلّم الآلي الحديث، لا سيما في مجال البرمجة اللغوية العصبية. فمن خلال تمثيل البيانات كمتجهات كثيفة في فضاء متعدد الأبعاد، تلتقط التضمينات علاقات دلالية غنية وتتيح معالجة وتحليل أكثر تطوراً. وسواء كان الأمر يتعلق بفهم اللغة الطبيعية أو تشغيل أنظمة التوصيات أو تعزيز مهام الرؤية الحاسوبية، فإن التضمينات تلعب دوراً حاسماً في تطوير قدرات أنظمة الذكاء الاصطناعي. ومع تقدم الأبحاث، يمكننا أن نتوقع أن تستمر التضمينات في التطور، مما يؤدي إلى تمثيلات أكثر قوة ودقة للبيانات. وبفضل أدوات مثل Ultralytics HUB، تصبح إدارة هذه النماذج المتقدمة ونشرها أكثر سهولة، مما يسمح للمستخدمين بتدريب نماذج YOLO بكفاءة ودمج حلول الذكاء الاصطناعي المتطورة في تطبيقاتهم.

قراءة الكل