مسرد المصطلحات

الانتشار المستقر

اكتشف Stable Diffusion، وهو نموذج ذكاء اصطناعي متطور لتوليد صور واقعية من المطالبات النصية، مما يُحدث ثورة في الإبداع والكفاءة.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

يعد Stable Diffusion نموذجًا بارزًا للتعلم العميق ينتمي إلى فئة نماذج الانتشار، وهو مصمم خصيصًا لتوليد النصوص إلى صور. تم إصداره في عام 2022 من قبل باحثين ومهندسين من شركات CompVis و Stability AI و LAION، وسرعان ما اكتسب شعبية بسبب قدرته على إنشاء صور مفصلة وعالية الجودة من الأوصاف النصية وطبيعته مفتوحة المصدر، مما جعل قدرات الذكاء الاصطناعي التوليدي المتقدمة متاحة على نطاق واسع. على عكس العديد من النماذج التوليدية القوية الأخرى في ذلك الوقت، يمكن تشغيل Stability Diffusion على أجهزة من فئة المستهلكين مع GPU.

كيف يعمل الانتشار المستقر

تستخدم عملية الانتشار المستقر في جوهرها عملية انتشار مستقرة تعمل داخل فضاء كامن منخفض الأبعاد لتحقيق الكفاءة الحسابية. تتضمن العملية مرحلتين رئيسيتين:

  1. الانتشار الأمامي (التشويش): بدءًا من صورة حقيقية، تتم إضافة ضوضاء غاوسي تدريجيًا على عدة خطوات حتى يتبقى ضوضاء عشوائية فقط. تعلم هذه العملية النموذج كيفية توزيع الضوضاء على مستويات مختلفة.
  2. الانتشار العكسي (إزالة الضوضاء): لتوليد صورة، يبدأ النموذج بضوضاء عشوائية في الفضاء الكامن ويزيل الضوضاء بشكل متكرر، خطوة بخطوة. يتم توجيه عملية إزالة الضوضاء هذه من خلال مطالبة النص المُدخَل، والتي يتم ترميزها وتغذيتها في النموذج، وعادةً ما يتم ذلك باستخدام تقنيات مثل CLIP (التدريب المسبق على لغة التباين-الصورة المتباينة)، لضمان تطابق الصورة المُنشأة مع الوصف النصي. ثم يتم بعد ذلك فك تشفير التمثيل الكامن النهائي الذي تم فك تشفيره إلى صورة كاملة الدقة.

يسمح هذا التنقيح التكراري للنموذج بتجميع صور معقدة ومتماسكة بناءً على مدخلات نصية متنوعة.

الاختلافات الرئيسية عن شبكات GAN

على الرغم من استخدام كل من شبكات الانتشار المستقر وشبكات الخصومة التوليدية (GANs) لتوليد الصور، إلا أنها تعمل بشكل مختلف:

  • عملية التدريب: تتضمن شبكات GAN مولد ومميّز يتنافسان ضد بعضهما البعض، مما قد يؤدي أحيانًا إلى تدريب غير مستقر. نماذج الانتشار مثل الانتشار المستقر لديها عملية تدريب أكثر استقرارًا تعتمد على التعلم لعكس إجراء ضوضاء ثابت.
  • عملية التوليد: تقوم شبكات GAN عادةً بتوليد الصور في تمرير أمامي واحد عبر شبكة المولد. يقوم الانتشار المستقر بتوليد الصور من خلال عملية إزالة الضوضاء التكرارية على عدة خطوات.
  • جودة المخرجات وتنوعها: غالبًا ما تتفوق نماذج الانتشار في توليد صور متنوعة وعالية الدقة، على الرغم من أن شبكات GAN يمكن أن تكون أسرع في بعض الأحيان في وقت الاستدلال. اقرأ المزيد عن ورقة بحث الانتشار المستقر الأصلية للحصول على التفاصيل الفنية.

التطبيقات الواقعية

يتيح تعدد استخدامات الانتشار المستقر العديد من التطبيقات في مختلف المجالات:

  • إنشاء الفن والمحتوى: يستخدم الفنانون والمصممون ومنشئو المحتوى برنامج Stable Diffusion لإنشاء صور ورسوم توضيحية وفن مفاهيمي فريد من المطالبات النصية، وتكرار الأفكار بسرعة. توفر منصات مثل Stability AI's DreamStudio منStability AI واجهات سهلة الاستخدام.
  • توليد البيانات الاصطناعية: يمكن استخدامه لإنشاء بيانات اصطناعية واقعية لتدريب نماذج التعلم الآلي الأخرى، لا سيما في مهام الرؤية الحاسوبية حيث قد تكون بيانات العالم الحقيقي نادرة أو مكلفة في التسمية. يمكن أن يكون ذلك مكملاً لاستراتيجيات زيادة البيانات.
  • التعليم والبحث: يستخدمه الباحثون لدراسة التعلُّم العميق، واستكشاف قدرات النماذج التوليدية وحدودها، والتحقيق في قضايا مثل التحيز الخوارزمي.
  • وسائط مخصصة: توليد صور مخصصة للعروض التقديمية أو وسائل التواصل الاجتماعي أو الترفيه بناءً على طلبات مستخدمين محددين.

الوصول والاستخدام

تتوفر نماذج الانتشار المستقر والأدوات ذات الصلة على نطاق واسع من خلال منصات مثل Hugging Faceوغالبًا ما تستخدم مكتبات مثل مكتبة Diffusers الشهيرة. تشجع طبيعتها المفتوحة على التطوير المجتمعي والضبط الدقيق لمهام أو أنماط محددة، مما يساهم في التطور السريع للذكاء الاصطناعي. بينما يركز Ultralytics في المقام الأول على نماذج فعالة للكشف عن الكائنات مثل Ultralytics YOLO وأدوات مثل Ultralytics HUB، فإن فهم النماذج التوليدية مثل Stable Diffusion أمر بالغ الأهمية في مشهد الذكاء الاصطناعي الأوسع نطاقاً.

قراءة الكل