مسرد المصطلحات

الانتشار المستقر

اكتشف Stable Diffusion، وهو نموذج ذكاء اصطناعي متطور لتوليد صور واقعية من المطالبات النصية، مما يُحدث ثورة في الإبداع والكفاءة.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

الانتشار المستقر هو نموذج بارز للتعلّم العميق (DL) ينتمي إلى فئة نماذج الانتشار، وهو مصمم خصيصاً لتوليد النصوص إلى صور. صدر عام 2022 من قبل باحثين ومهندسين من شركة CompVis, Stability AIو LAION، وسرعان ما اكتسب شعبية كبيرة بسبب قدرته على إنشاء صور مفصلة وعالية الجودة من الأوصاف النصية. جعلت طبيعته مفتوحة المصدر قدرات الذكاء الاصطناعي التوليدي المتقدمة متاحة على نطاق واسع. على عكس العديد من النماذج التوليدية القوية الأخرى في ذلك الوقت، يمكن تشغيل Stable Diffusion على أجهزة من فئة المستهلكين مع GPU معالجة رسومات مناسبة (وحدة معالجة الرسومات).

كيف يعمل الانتشار المستقر

يستخدم برنامج Stable Diffusion في جوهره عملية انتشار. وتبدأ هذه العملية بنمط من الضوضاء العشوائية وتقوم بتنقيحها تدريجيًا، خطوة بخطوة، وإزالة الضوضاء وفقًا للتوجيهات التي يوفرها موجه نصي. ولجعل هذه العملية فعّالة من الناحية الحسابية، يعمل جزء كبير من العملية داخل مساحة كامنة منخفضة الأبعاد، بدلاً من العمل مباشرةً على بيانات البكسل عالية الدقة. يتم تفسير المطالبات النصية باستخدام برنامج ترميز نصي، غالبًا ما يعتمد على نماذج مثل CLIP (التدريب المسبق على اللغة المتباينة - الصورة المتباينة)، والذي يترجم الكلمات إلى تمثيل يمكن لعملية توليد الصور فهمه. يسمح هذا التنقيح التكراري للنموذج بتوليف صور معقدة ومتماسكة بناءً على مدخلات نصية متنوعة، كما هو مفصل في ورقة بحثية أصلية عن الانتشار المستقر.

الاختلافات الرئيسية عن شبكات GAN

على الرغم من استخدام كل من شبكات الانتشار المستقر وشبكات الخصومة التوليدية (GANs) لتوليد الصور، إلا أنها تعمل بشكل مختلف:

  • عملية التدريب: تتضمن شبكات GANs عملية تنافسية بين المولد (إنشاء الصور) والمميز (الحكم على الصور)، والتي يمكن أن تؤدي في بعض الأحيان إلى تدريب غير مستقر. تتمتع نماذج الانتشار مثل الانتشار المستقر عمومًا بديناميكيات تدريب أكثر استقرارًا، حيث تتعلم عكس عملية إضافة الضوضاء.
  • جودة الصورة وتنوعها: لطالما تفوقت شبكات GAN تاريخيًا في إنتاج صور واضحة ولكنها قد تعاني أحيانًا من "انهيار الوضع"، حيث تولد اختلافات محدودة. وغالباً ما تحقق نماذج الانتشار تنوعاً وتماسكاً أفضل للصور، وتتماشى بشكل جيد مع المطالبات المعقدة، على الرغم من أنها قد تتطلب المزيد من الخطوات الحسابية أثناء الاستدلال.
  • الآلية: تتعلم شبكات GAN توليد صورة مباشرةً من متجه عشوائي. أما نماذج الانتشار فتتعلّم إزالة الضوضاء العشوائية بشكل تكراري بناءً على معلومات التكييف (مثل النص).

التطبيقات الواقعية

يتيح تعدد استخدامات الانتشار المستقر العديد من التطبيقات في مختلف المجالات:

  • الفنون الإبداعية والتصميم: يستخدم الفنانون والمصممون ومنشئو المحتوى أدوات مثل برنامج DreamStudio منStability AI أو البرامج المدمجة لإنشاء صور فريدة من نوعها وفن المفاهيم والرسوم التوضيحية والمواد التسويقية وحتى القوام للنماذج ثلاثية الأبعاد استنادًا إلى أوصاف نصية.
  • توليد البيانات الاصطناعية: في التعلّم الآلي (ML)، وخاصةً في مجال الرؤية الحاسوبية، يمكن للانتشار المستقر إنشاء بيانات اصطناعية. على سبيل المثال، يمكن أن يؤدي توليد صور متنوعة لأجسام نادرة أو سيناريوهات محددة إلى زيادة بيانات التدريب لمهام مثل اكتشاف الأجسام، مما قد يحسن من متانة نماذج مثل Ultralytics YOLO. هذا شكل من أشكال زيادة البيانات.
  • التعليم والبحث: توليد الوسائل البصرية للموضوعات المعقدة أو استكشاف النتائج المحتملة في المحاكاة.
  • الترفيه: إنشاء أصول للألعاب، أو العوالم الافتراضية، أو تصميم القصص المصورة في صناعة الأفلام.

الوصول والاستخدام

تتوفر نماذج الانتشار المستقر والأدوات ذات الصلة على نطاق واسع من خلال منصات مثل Hugging Faceوغالبًا ما تستخدم مكتبات مثل مكتبة Diffusers الشهيرة ضمن أطر مثل PyTorch أو TensorFlow. تشجع طبيعته المفتوحة على تطوير المجتمع وضبطه لمهام أو أنماط محددة، مما يساهم في التطور السريع للذكاء الاصطناعي. بينما يركز Ultralytics في المقام الأول على نماذج اكتشاف الكائنات الفعالة (YOLOv8و YOLOv10YOLO11) وأدوات مثل Ultralytics HUB لتبسيط عمليات MLOps، فإن فهم النماذج التوليدية مثل الانتشار المستقر أمر بالغ الأهمية في مشهد الذكاء الاصطناعي الأوسع نطاقًا.

الاعتبارات الأخلاقية

كما تجلب قوة النماذج التوليدية مثل Stable Diffusion تحديات أخلاقية. وتشمل الشواغل إمكانية إنشاء عمليات تزييف عميقة مقنعة، أو توليد محتوى صريح غير متوافق، أو إدامة التحيزات المجتمعية الموجودة في بيانات التدريب، مما يؤدي إلى تحيز الخوارزميات. يتطلب تطوير هذه التقنيات ونشرها دراسة متأنية لأخلاقيات الذكاء الاصطناعي وتنفيذ ضمانات لممارسات الذكاء الاصطناعي المسؤولة.

قراءة الكل