Glossaire

Champs de rayonnement neuronal (NeRF)

Découvre la puissance des champs de rayonnement neuronaux (NeRF) pour les scènes 3D photoréalistes, la RV/AR, la robotique et la création de contenu. Explore maintenant !

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Les champs de rayonnement neuronaux (NeRF) représentent une approche révolutionnaire de l'intelligence artificielle (IA) et de l'apprentissage automatique (ML), en particulier dans le domaine de la vision artificielle (CV) et de l'infographie. Ils offrent une méthode pour créer des représentations 3D photoréalistes et très détaillées de scènes complexes en utilisant uniquement une collection d'images 2D capturées à partir de différents points de vue. Contrairement aux techniques traditionnelles de modélisation 3D qui s'appuient sur des structures géométriques explicites telles que des maillages ou des nuages de points, les NeRF utilisent des modèles d'apprentissage profond (DL), plus précisément des réseaux neuronaux (NN), pour apprendre une représentation implicite et continue de la géométrie et de l'apparence d'une scène. Cela permet de générer de nouvelles vues de la scène à partir d'angles non présents dans les images originales, un processus connu sous le nom de synthèse de vues inédites, avec une fidélité et un réalisme remarquables.

Concept de base de NeRF

Au fond, un modèle NeRF est un type spécifique de représentation neuronale implicite. Il s'agit d'entraîner un réseau neuronal profond, souvent un perceptron multicouche (MLP), généralement construit à l'aide de frameworks tels que PyTorch ou TensorFlow. Ce réseau apprend une fonction qui fait correspondre une coordonnée spatiale 3D (emplacement x, y, z) et une direction de visualisation 2D (d'où la caméra regarde) à la couleur (valeurs RVB) et à la densité de volume (essentiellement, le degré d'opacité ou de transparence de ce point) à ce point spécifique dans l'espace, vu depuis cette direction.

Le processus de formation utilise un ensemble d'images 2D d'une scène prises à partir de positions et d'orientations connues de la caméra. Cela nécessite des données d'étalonnage de caméra précises pour les données d'apprentissage. Le réseau apprend en comparant les pixels rendus de sa représentation actuelle aux pixels réels des images d'entrée, en ajustant les poids de son modèle par rétropropagation pour minimiser la différence. En interrogeant cette fonction apprise pour de nombreux points le long des rayons de la caméra passant par les pixels d'une caméra virtuelle, NeRF peut restituer des images très détaillées à partir de points de vue entièrement nouveaux. L'apprentissage de ces modèles nécessite souvent une puissance de calcul importante, généralement grâce aux GPU. Pour une étude technique plus approfondie, l'article original,"NeRF : Representing Scenes as Neural Radiance Fields for View Synthesis" (NeRF : Représentation de scènes en tant que champs de radiance neuronaux pour la synthèse de vues), fournit des détails complets.

Pertinence et importance

L'importance de NeRF réside dans sa capacité sans précédent à capturer et à restituer des vues photoréalistes de scènes complexes. Il excelle dans la représentation de détails complexes et d'effets dépendant de la vue tels que les réflexions, les réfractions, la translucidité et les éclairages complexes, qui constituent souvent un défi pour les méthodes graphiques 3D traditionnelles telles que les maillages de polygones ou les voxels. Étant donné que l'ensemble de la représentation de la scène est stocké implicitement dans les poids du réseau neuronal entraîné, les modèles NeRF peuvent obtenir des représentations très compactes par rapport aux méthodes explicites telles que les nuages de points denses ou les maillages haute résolution, en particulier pour les scènes visuellement complexes. Cette avancée repousse les limites de la reconstruction 3D et de l'informatique visuelle.

NeRF vs. autres techniques de représentation 3D

Il est important de distinguer le NeRF des autres méthodes utilisées dans la modélisation 3D et la vision par ordinateur :

  • Représentations explicites (maillages, nuages de points, voxels) : Les méthodes traditionnelles définissent la géométrie de manière explicite à l'aide de sommets, de faces, de points ou de cellules de grille. Bien qu'elles soient efficaces pour de nombreuses tâches, elles peuvent avoir des difficultés avec les textures complexes, la transparence et les effets dépendant de la vue, et la taille des fichiers peut devenir très importante pour les scènes détaillées. NeRF offre une représentation implicite, en apprenant une fonction continue.
  • La photogrammétrie : Cette technique utilise également plusieurs images 2D pour reconstruire des scènes 3D, ce qui donne souvent des maillages ou des nuages de points(Wikipedia Photogrammetry). Bien que mature, la photogrammétrie peut parfois avoir des difficultés avec les surfaces sans texture, les reflets et les structures fines par rapport aux capacités de synthèse de vues de NeRF.
  • Autres tâches du CV : NeRF se concentre sur la représentation et la synthèse de scènes. Cela diffère des tâches telles que la détection d'objets (localisation d'objets avec des boîtes de délimitation), la classification d'images (étiquetage d'une image) ou la segmentation d'images (classification au niveau des pixels), qui analysent le contenu de l'image plutôt que de générer de nouvelles vues d'une scène en 3D. Cependant, NeRF pourrait potentiellement compléter ces tâches en fournissant un contexte de scène plus riche.

Applications dans le monde réel

La technologie NeRF trouve rapidement des applications dans divers domaines :

  • Réalité virtuelle et augmentée (VR/AR) : Création d'environnements et d'objets virtuels très réalistes pour des expériences immersives. Des entreprises comme Meta explorent des techniques similaires pour les futures plates-formes de RV/AR(RV sur Wikipédia) comme Meta Quest.
  • Divertissement et effets visuels (VFX) : Générer des acteurs numériques réalistes, des décors et des effets complexes pour les films et les jeux, en réduisant potentiellement le besoin de modélisation manuelle complexe(Autodesk VFX Solutions).
  • Jumeaux numériques et simulation : Construire des répliques virtuelles très précises d'objets ou d'environnements du monde réel pour la simulation, la formation ou l'inspection. Cela concerne les applications industrielles utilisant des plates-formes telles que NVIDIA Omniverse.
  • Robotique et systèmes autonomes : Améliorer la compréhension des scènes pour les robots et les véhicules autonomes en fournissant des cartes 3D détaillées à partir des données des capteurs, ce qui améliore potentiellement la navigation et l'interaction(IA dans les voitures auto-conduites). Des instituts de recherche et des entreprises comme Waymo et Boston Dynamics explorent la perception 3D avancée.
  • Commerce électronique et archivage : Créer des visualisations 3D interactives de produits ou de sites du patrimoine culturel à partir de simples captures d'images.

Le développement de NeRF et des techniques connexes se poursuit rapidement, sous l'impulsion de communautés de recherche comme SIGGRAPH et d'outils accessibles grâce à des plateformes comme Ultralytics HUB qui facilitent le déploiement des modèles et leur intégration dans des systèmes d'IA plus vastes, y compris ceux qui utilisent les outils suivants Ultralytics YOLO d'Ultralytics pour la perception en 2D.

Tout lire