اكتشف قوة حقول الإشعاع العصبي (NeRF) للمشاهد الواقعية ثلاثية الأبعاد، والواقع الافتراضي/الواقع المعزز، والروبوتات، وإنشاء المحتوى. استكشف الآن!
تمثّل حقول الإشعاع العصبي (NeRF) نهجاً رائداً في مجال الذكاء الاصطناعي والتعلم الآلي، لا سيما في مجال الرؤية الحاسوبية ورسومات الحاسوب. فهي توفر طريقة لإنشاء تمثيلات ثلاثية الأبعاد واقعية ومفصلة للغاية للمشاهد المعقدة باستخدام مجموعة من الصور ثنائية الأبعاد الملتقطة من وجهات نظر مختلفة. على عكس تقنيات النمذجة ثلاثية الأبعاد التقليدية التي تعتمد على هياكل هندسية واضحة مثل الشبكات أو السحب النقطية، تستخدم نماذج التعلم العميق (DL) ، وتحديداً الشبكات العصبية (NN)، لتعلم تمثيل ضمني ومستمر لهندسة المشهد ومظهره. يسمح هذا بتوليد مناظر جديدة للمشهد من زوايا غير موجودة في الصور الأصلية، وهي عملية تُعرف باسم تركيب المناظر الجديدة، بدقة وواقعية ملحوظة.
نموذج NeRF في جوهره هو نوع محدد من التمثيل العصبي الضمني. وهو يتضمن تدريب شبكة عصبونية عميقة، غالباً ما تكون متعددة الطبقات (MLP)، وعادةً ما يتم إنشاؤها باستخدام أطر مثل PyTorch أو TensorFlow. تتعلم هذه الشبكة دالةً تقوم بتعيين إحداثيات مكانية ثلاثية الأبعاد (الموقع x، y، z) واتجاه الرؤية ثنائي الأبعاد (من أين تنظر الكاميرا) إلى اللون (قيم RGB) وكثافة الحجم (بشكل أساسي، مدى عتامة أو شفافية تلك النقطة) في تلك النقطة المحددة في الفضاء كما تُرى من ذلك الاتجاه.
تستخدم عملية التدريب مجموعة من الصور ثنائية الأبعاد المدخلة لمشهد مأخوذة من مواضع واتجاهات الكاميرا المعروفة. يتطلب ذلك بيانات معايرة دقيقة للكاميرا لبيانات التدريب. تتعلّم الشبكة من خلال مقارنة وحدات البكسل المعروضة من تمثيلها الحالي مع وحدات البكسل الفعلية في صور الإدخال، وتعديل أوزان نموذجها من خلال الترحيل العكسي لتقليل الفرق. من خلال الاستعلام عن هذه الدالة المستفادة للعديد من النقاط على طول أشعة الكاميرا التي تمر عبر بكسلات الكاميرا الافتراضية، يمكن لـ NeRF عرض صور مفصلة للغاية من وجهات نظر جديدة تمامًا. يتطلب تدريب هذه النماذج في كثير من الأحيان قوة حاسوبية كبيرة، وعادةً ما يتم الاستفادة من وحدات معالجة الرسومات. للتعمق أكثر في التفاصيل التقنية، يمكن الاطلاع على الورقة البحثية الأصلية"NeRF: تمثيل المشاهد كمجالات إشعاع عصبي لتوليف الرؤية".
تكمن أهمية NeRF في قدرتها غير المسبوقة على التقاط وتقديم مناظر واقعية للمشاهد المعقدة. وهي تتفوق في تمثيل التفاصيل المعقدة والتأثيرات المعتمدة على المنظر مثل الانعكاسات والانكسارات والشفافية والإضاءة المعقدة، والتي غالباً ما تكون صعبة بالنسبة لطرق الرسومات ثلاثية الأبعاد التقليدية مثل شبكات المضلعات أو فوكسلات. نظرًا لأن تمثيل المشهد بأكمله يتم تخزينه ضمنيًا داخل أوزان الشبكة العصبية المدربة، يمكن لنماذج NeRF تحقيق تمثيلات مضغوطة للغاية مقارنة بالطرق الصريحة مثل السحب النقطية الكثيفة أو الشبكات عالية الدقة، خاصةً بالنسبة للمشاهد المعقدة بصريًا. يدفع هذا التقدم حدود إعادة البناء ثلاثي الأبعاد والحوسبة البصرية.
من المهم تمييز NeRF عن الطرق الأخرى المستخدمة في النمذجة ثلاثية الأبعاد والرؤية الحاسوبية:
تجد تقنية الترددات الراديوية الجديدة تطبيقات سريعة في مختلف المجالات:
يستمر تطوير NeRF والتقنيات ذات الصلة بشكل سريع، مدفوعًا بمجتمعات بحثية مثل SIGGRAPH والأدوات التي يمكن الوصول إليها من خلال منصات مثل Ultralytics HUB التي تسهل نشر النموذج ودمجه في أنظمة الذكاء الاصطناعي الأوسع، بما في ذلك تلك التي تستخدم Ultralytics YOLO للإدراك ثنائي الأبعاد.