مسرد المصطلحات

نماذج الانتشار

اكتشف كيف تُحدث نماذج الانتشار ثورة في الذكاء الاصطناعي التوليدي من خلال إنشاء صور ومقاطع فيديو وبيانات واقعية بتفاصيل وثبات لا مثيل لهما.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

نماذج الانتشار هي فئة من النماذج التوليدية في التعلم الآلي (ML) التي اكتسبت اهتمامًا كبيرًا لقدرتها على إنتاج عينات متنوعة وعالية الجودة، لا سيما في مجال الرؤية الحاسوبية. تعمل هذه النماذج، المستوحاة من مفاهيم الديناميكا الحرارية، من خلال إضافة ضوضاء بشكل منهجي إلى البيانات (مثل الصورة) في "عملية أمامية" حتى تصبح ضوضاء خالصة، ثم تعلم عكس هذه العملية. تتضمن "العملية العكسية" تدريب شبكة عصبية لإزالة الضوضاء تدريجيًا، بدءًا من الضوضاء العشوائية وتنقيحها بشكل متكرر حتى يتم إنشاء عينة بيانات واقعية.

كيف تعمل نماذج الانتشار

تنطوي الفكرة الأساسية على مرحلتين:

  1. عملية الانتشار الأمامي: تأخذ هذه المرحلة عينة بيانات أصلية (على سبيل المثال، صورة) وتضيف تدريجياً كمية صغيرة من الضوضاء الغاوسية على عدة خطوات. تستمر هذه العملية حتى لا يمكن تمييز الصورة الأصلية عن الضوضاء العشوائية. هذه المرحلة ثابتة ولا تتضمن التعلم.
  2. عملية تقليل الضوضاء العكسي: هذا هو المكان الذي يحدث فيه التعلم. يتم تدريب نموذج، عادةً ما يكون عبارة عن بنية شبكة عصبية متطورة مثل U-Net، على التنبؤ بالضوضاء المضافة في كل خطوة من خطوات العملية الأمامية. أثناء عملية التوليد، يبدأ النموذج بضوضاء نقية ويستخدم تنبؤاته المكتسبة لإزالة الضوضاء تدريجيًا على نفس عدد الخطوات، مما يعكس الانتشار بشكل فعال ويولد عينة بيانات جديدة. يسمح هذا التنقيح التدريجي بإنشاء مخرجات مفصلة للغاية.

مقارنة مع النماذج التوليدية الأخرى

تختلف نماذج الانتشار اختلافًا كبيرًا عن النُهج التوليدية الشائعة الأخرى مثل شبكات الخصومة التوليدية (GANs). فبينما تتضمن شبكات الشبكات العدائية التوليدية مولدًا ومميّزًا يتنافسان ضد بعضهما البعض، مما يؤدي غالبًا إلى عدم استقرار التدريب، تميل نماذج الانتشار إلى أن تكون ديناميكيات التدريب أكثر استقرارًا. وغالبًا ما تحقق تنوعًا وجودة أفضل للعينات مقارنةً بشبكات GAN، على الرغم من أنها تتطلب عادةً المزيد من الخطوات الحسابية أثناء الاستدلال (التوليد)، مما يجعلها أبطأ. على عكس أجهزة التشفير التلقائي المتغير (VAEs)، التي تتعلم مساحة كامنة مضغوطة، تعمل نماذج الانتشار مباشرةً في مساحة البيانات من خلال عملية التشويش وإزالة الضوضاء. البديل الشائع هو الانتشار المستقر، المعروف بكفاءته ومخرجاته عالية الجودة.

تطبيقات نماذج الانتشار

تتفوق نماذج الانتشار في المهام التي تتطلب توليدًا عالي الدقة:

  • توليف النص إلى صورة: تستخدم نماذج مثل Imagen منGoogle و OpenAI's DALL-E 2 تقنيات الانتشار لتوليد صور مفصلة بناءً على أوصاف نصية. يمكن للمستخدمين تقديم مطالبات، ويقوم النموذج بإنشاء صور مقابلة.
  • تحليل الصور الطبية: يمكن استخدامها في مهام مثل توليد صور طبية اصطناعية لزيادة بيانات التدريب، أو تحسين دقة الصورة لتحسين جودة المسح الضوئي، أو حتى الكشف عن الشذوذ من خلال تعلم توزيع الأنسجة السليمة. على سبيل المثال، يمكن أن يساعد توليد صور واقعية للتصوير بالرنين المغناطيسي أو التصوير المقطعي المحوسب في تدريب نماذج الذكاء الاصطناعي التشخيصية دون الاعتماد فقط على بيانات المرضى المحدودة، مما يكمل مهام مثل تجزئة الصور للأورام.
  • مجالات أخرى: تستكشف الأبحاث استخدامها في توليد الصوت، وتوليد الفيديو(مثل Google فيو)، وتصميم الجزيئات لاكتشاف الأدوية، وضغط البيانات.

أطر عمل مثل PyTorch والمكتبات مثل مكتبةHugging Face المنتشرة توفر أدوات ونماذج مدربة مسبقًا، مما يسهل على المطورين تجربة نماذج الانتشار ونشرها. إن قدرتها على توليد بيانات متنوعة وعالية الجودة تجعلها أداة قوية في التطور المستمر للذكاء الاصطناعي التوليدي.

قراءة الكل