اكتشف Stable Diffusion، وهو نموذج ذكاء اصطناعي متطور لتوليد صور واقعية من المطالبات النصية، مما يُحدث ثورة في الإبداع والكفاءة.
الانتشار المستقر هو نموذج بارز للتعلّم العميق (DL) ينتمي إلى فئة نماذج الانتشار، وهو مصمم خصيصاً لتوليد النصوص إلى صور. صدر عام 2022 من قبل باحثين ومهندسين من شركة CompVis, Stability AIو LAION، وسرعان ما اكتسب شعبية كبيرة بسبب قدرته على إنشاء صور مفصلة وعالية الجودة من الأوصاف النصية. جعلت طبيعته مفتوحة المصدر قدرات الذكاء الاصطناعي التوليدي المتقدمة متاحة على نطاق واسع. على عكس العديد من النماذج التوليدية القوية الأخرى في ذلك الوقت، يمكن تشغيل Stable Diffusion على أجهزة من فئة المستهلكين مع GPU معالجة رسومات مناسبة (وحدة معالجة الرسومات).
يستخدم برنامج Stable Diffusion في جوهره عملية انتشار. وتبدأ هذه العملية بنمط من الضوضاء العشوائية وتقوم بتنقيحها تدريجيًا، خطوة بخطوة، وإزالة الضوضاء وفقًا للتوجيهات التي يوفرها موجه نصي. ولجعل هذه العملية فعّالة من الناحية الحسابية، يعمل جزء كبير من العملية داخل مساحة كامنة منخفضة الأبعاد، بدلاً من العمل مباشرةً على بيانات البكسل عالية الدقة. يتم تفسير المطالبات النصية باستخدام برنامج ترميز نصي، غالبًا ما يعتمد على نماذج مثل CLIP (التدريب المسبق على اللغة المتباينة - الصورة المتباينة)، والذي يترجم الكلمات إلى تمثيل يمكن لعملية توليد الصور فهمه. يسمح هذا التنقيح التكراري للنموذج بتوليف صور معقدة ومتماسكة بناءً على مدخلات نصية متنوعة، كما هو مفصل في ورقة بحثية أصلية عن الانتشار المستقر.
على الرغم من استخدام كل من شبكات الانتشار المستقر وشبكات الخصومة التوليدية (GANs) لتوليد الصور، إلا أنها تعمل بشكل مختلف:
يتيح تعدد استخدامات الانتشار المستقر العديد من التطبيقات في مختلف المجالات:
تتوفر نماذج الانتشار المستقر والأدوات ذات الصلة على نطاق واسع من خلال منصات مثل Hugging Faceوغالبًا ما تستخدم مكتبات مثل مكتبة Diffusers الشهيرة ضمن أطر مثل PyTorch أو TensorFlow. تشجع طبيعته المفتوحة على تطوير المجتمع وضبطه لمهام أو أنماط محددة، مما يساهم في التطور السريع للذكاء الاصطناعي. بينما يركز Ultralytics في المقام الأول على نماذج اكتشاف الكائنات الفعالة (YOLOv8و YOLOv10YOLO11) وأدوات مثل Ultralytics HUB لتبسيط عمليات MLOps، فإن فهم النماذج التوليدية مثل الانتشار المستقر أمر بالغ الأهمية في مشهد الذكاء الاصطناعي الأوسع نطاقًا.
كما تجلب قوة النماذج التوليدية مثل Stable Diffusion تحديات أخلاقية. وتشمل الشواغل إمكانية إنشاء عمليات تزييف عميقة مقنعة، أو توليد محتوى صريح غير متوافق، أو إدامة التحيزات المجتمعية الموجودة في بيانات التدريب، مما يؤدي إلى تحيز الخوارزميات. يتطلب تطوير هذه التقنيات ونشرها دراسة متأنية لأخلاقيات الذكاء الاصطناعي وتنفيذ ضمانات لممارسات الذكاء الاصطناعي المسؤولة.