اكتشف قوة التعلّم المتباين، وهي تقنية ذاتية الإشراف لتمثيل البيانات القوية مع الحد الأدنى من البيانات المصنفة.
يُعد التعلم المتباين نهجًا قويًا في التعلم الذاتي الخاضع للإشراف حيث يتعلم النموذج تحديد نقاط البيانات المتشابهة وغير المتشابهة دون الاعتماد على البيانات المصنفة. وتتضمن هذه الطريقة تدريب نموذج لفهم العلاقات بين عينات البيانات المختلفة من خلال مقارنة الأزواج الموجبة مع الأزواج السالبة. في الأساس، يتعلم النموذج أن يجمع تمثيلات نقاط البيانات المتشابهة معًا بينما يفصل بين تمثيلات نقاط البيانات غير المتشابهة. وقد أثبتت هذه التقنية فعاليتها العالية في مجالات مختلفة، بما في ذلك الرؤية الحاسوبية ومعالجة اللغات الطبيعية ومعالجة الصوت. من خلال تعلم تمثيلات البيانات الغنية والقوية، يمكّن التعلم التبايني النماذج من الأداء الجيد في المهام النهائية حتى مع وجود بيانات موسومة محدودة، مما يجعلها أداة قيمة في السيناريوهات التي تكون فيها البيانات الموسومة نادرة أو مكلفة للحصول عليها.
يدور التعلم التبايني حول فكرة مقارنة عينات البيانات المختلفة ومقارنتها لتعلم تمثيلات ذات معنى. يتم استخدام نوعين رئيسيين من أزواج البيانات:
الهدف هو تدريب النموذج بحيث تكون تمثيلات الأزواج الموجبة قريبة من بعضها البعض في فضاء التضمين، بينما تكون تمثيلات الأزواج السالبة متباعدة. ويتحقق ذلك عن طريق تقليل المسافة بين الأزواج الموجبة وتعظيم المسافة بين الأزواج السالبة.
في حين يهدف كل من التعلّم التبايني والتعلّم الخاضع للإشراف إلى تدريب النماذج على إجراء تنبؤات دقيقة، إلا أنهما يختلفان بشكل كبير في نهجهما ومتطلباتهما. يعتمد التعلّم الخاضع للإشراف على مجموعات بيانات موسومة، حيث ترتبط كل نقطة بيانات بتسمية محددة أو متغير مستهدف. يتعلم النموذج تعيين المدخلات إلى المخرجات بناءً على هذه الأمثلة المصنفة. وعلى النقيض من ذلك، يندرج التعلّم التبايني تحت مظلة التعلّم الخاضع للإشراف الذاتي، وهو مجموعة فرعية من التعلّم غير الخاضع للإشراف، حيث يتعلم النموذج من البيانات نفسها دون الحاجة إلى تسميات صريحة. وهذا يجعل التعلّم المتباين مفيدًا بشكل خاص عندما تكون البيانات المصنفة محدودة أو غير متوفرة.
التعلّم المتباين والتعلّم شبه الخاضع للإشراف كلاهما تقنيتان تهدفان إلى تحسين أداء النموذج عندما تكون البيانات المصنفة نادرة، ولكنهما تقومان بذلك من خلال آليات مختلفة. يستفيد التعلّم شبه الخاضع للإشراف من مزيج من البيانات المصنفة وغير المصنفة أثناء التدريب. يتعلم النموذج من البيانات المصنفة بطريقة إشرافية تقليدية بينما يستخدم أيضًا البيانات غير المصنفة لاكتساب فهم أفضل لبنية البيانات الأساسية. من ناحية أخرى، يركز التعلم المتباين فقط على تعلم التمثيلات من البيانات غير الموسومة من خلال المقارنة بين العينات المتشابهة وغير المتشابهة. في حين أن التعلم شبه الخاضع للإشراف يمكن أن يستفيد من بعض البيانات المُسمّاة، إلا أن التعلم المتباين لا يتطلب أي تسميات على الإطلاق، ويعتمد بدلاً من ذلك على العلاقات المتأصلة في البيانات نفسها.
أظهر التعلم التبايني نجاحاً ملحوظاً عبر مجموعة واسعة من التطبيقات:
SimCLR (إطار عمل بسيط للتعلم التبايني للتمثيلات البصرية) هو إطار عمل معترف به على نطاق واسع يوضح قوة التعلم التبايني في تمثيل الصور. يعمل SimCLR من خلال تدريب نموذج على أزواج من الصور المعززة. يتم تحويل كل صورة في مجموعة من الصور إلى منظرين مختلفين باستخدام عمليات زيادة مثل الاقتصاص العشوائي وتغيير الحجم وتشويه الألوان. تشكل هذه المناظر المعززة أزواجًا إيجابية، بينما تشكل المناظر من صور مختلفة أزواجًا سلبية. يتعلم النموذج، وهو عادةً شبكة عصبية تلافيفية (CNN)، إنتاج تضمينات متشابهة للأزواج الإيجابية وتضمينات مختلفة للأزواج السلبية. وبمجرد التدريب، يمكن للنموذج توليد تمثيلات صور عالية الجودة تلتقط السمات الأساسية مع عدم تأثرها بالتعزيزات المحددة المطبقة. يمكن لهذه التمثيلات تحسين الأداء بشكل كبير في مختلف مهام الرؤية الحاسوبية النهائية. تعرف على المزيد حول SimCLR في الورقة البحثية الأصلية.
أظهر التعلّم التبايني نتائج واعدة في تحليل الصور الطبية، لا سيما في السيناريوهات التي تندر فيها البيانات الطبية المصنفة. على سبيل المثال، يمكن تدريب النموذج على التمييز بين المناظر أو الشرائح المختلفة لنفس الفحص الطبي (على سبيل المثال، التصوير بالرنين المغناطيسي أو التصوير المقطعي المحوسب) على أنها متشابهة، بينما يتم التعامل مع صور الفحوصات من مرضى مختلفين على أنها غير متشابهة. يسمح هذا النهج للنموذج بتعلّم تمثيلات قوية للصور الطبية دون الاعتماد على التعليقات التوضيحية اليدوية المكثفة. يمكن بعد ذلك استخدام هذه التمثيلات المكتسبة لتحسين دقة وكفاءة المهام التشخيصية، مثل اكتشاف الشذوذ وتصنيف الأمراض وتجزئة البنى التشريحية. ومن خلال الاستفادة من التعلّم المتباين، يمكن لأنظمة التصوير الطبي تحقيق أداء أفضل باستخدام بيانات أقل من البيانات الموسومة، مما يعالج عنق الزجاجة الحرج في هذا المجال. تعرف على المزيد حول تطبيقات التعلم المتباين في التصوير الطبي في هذه الورقة البحثية.