Glosario

Campos de Radiación Neural (NeRF)

Descubre el poder de los Campos de Resplandor Neuronales (NeRF) para escenas 3D fotorrealistas, RV/AR, robótica y creación de contenidos. ¡Explora ahora!

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Los Campos de Resplandor Neuronales (NeRF) representan un enfoque innovador en la Inteligencia Artificial (IA) y el aprendizaje automático (AM), en particular dentro de la visión por ordenador (VC) y los gráficos por ordenador. Ofrecen un método para crear representaciones 3D fotorrealistas y muy detalladas de escenas complejas utilizando sólo una colección de imágenes 2D capturadas desde distintos puntos de vista. A diferencia de las técnicas tradicionales de modelado 3D que se basan en estructuras geométricas explícitas como mallas o nubes de puntos, los NeRF utilizan modelos de aprendizaje profundo (DL), concretamente redes neuronales (NN), para aprender una representación implícita y continua de la geometría y el aspecto de una escena. Esto permite generar nuevas vistas de la escena desde ángulos no presentes en las imágenes originales, proceso conocido como síntesis de vistas novedosas, con notable fidelidad y realismo.

Concepto básico de NeRF

En esencia, un modelo NeRF es un tipo específico de representación neuronal implícita. Implica entrenar una red neuronal profunda, a menudo un Perceptrón Multicapa (MLP), construido normalmente utilizando marcos como PyTorch o TensorFlow. Esta red aprende una función que asigna una coordenada espacial 3D (ubicación x, y, z) y una dirección de visión 2D (desde dónde mira la cámara) al color (valores RGB) y a la densidad de volumen (básicamente, lo opaco o transparente que es ese punto) en ese punto concreto del espacio visto desde esa dirección.

El proceso de entrenamiento utiliza un conjunto de imágenes 2D de entrada de una escena tomadas desde posiciones y orientaciones de cámara conocidas. Esto requiere datos precisos de calibración de la cámara para los datos de entrenamiento. La red aprende comparando los píxeles renderizados de su representación actual con los píxeles reales de las imágenes de entrada, ajustando los pesos de su modelo mediante retropropagación para minimizar la diferencia. Consultando esta función aprendida para muchos puntos a lo largo de los rayos de la cámara que pasan por los píxeles de una cámara virtual, la NeRF puede representar imágenes muy detalladas desde puntos de vista totalmente nuevos. El entrenamiento de estos modelos suele requerir una potencia computacional considerable, normalmente aprovechando las GPU. Para una inmersión técnica más profunda, el artículo original,"NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis", proporciona detalles exhaustivos.

Relevancia y significado

La importancia de NeRF reside en su capacidad sin precedentes para capturar y representar vistas fotorrealistas de escenas complejas. Sobresale en la representación de detalles intrincados y efectos dependientes de la vista, como reflejos, refracciones, translucidez e iluminación compleja, que suelen ser un reto para los métodos tradicionales de gráficos 3D, como las mallas poligonales o los vóxeles. Como toda la representación de la escena se almacena implícitamente en los pesos de la red neuronal entrenada, los modelos NeRF pueden lograr representaciones muy compactas en comparación con métodos explícitos como las nubes de puntos densas o las mallas de alta resolución, especialmente para escenas visualmente complejas. Este avance amplía los límites de la reconstrucción 3D y la computación visual.

NeRF frente a otras técnicas de representación 3D

Es importante distinguir la NeRF de otros métodos utilizados en el modelado 3D y la visión por ordenador:

  • Representaciones explícitas (mallas, nubes de puntos, voxels): Los métodos tradicionales definen la geometría explícitamente mediante vértices, caras, puntos o celdas de cuadrícula. Aunque son eficaces para muchas tareas, pueden tener problemas con texturas complejas, transparencias y efectos dependientes de la vista, y el tamaño de los archivos puede llegar a ser muy grande para escenas detalladas. NeRF ofrece una representación implícita, aprendiendo una función continua.
  • Fotogrametría: Esta técnica también utiliza múltiples imágenes 2D para reconstruir escenas 3D, a menudo dando como resultado mallas o nubes de puntos(Wikipedia Fotogrametría). Aunque madura, la fotogrametría a veces puede tener problemas con las superficies sin textura, los reflejos y las estructuras delgadas, en comparación con las capacidades de síntesis de vistas de NeRF.
  • Otras tareas del CV: NeRF se centra en la representación y síntesis de escenas. Esto difiere de tareas como la Detección de Objetos (localizar objetos con cuadros delimitadores), la Clasificación de Imágenes (etiquetar una imagen) o la Segmentación de Imágenes (clasificación a nivel de píxel), que analizan el contenido de la imagen en lugar de generar nuevas vistas de una escena 3D. Sin embargo, la NeRF podría complementar potencialmente estas tareas proporcionando un contexto de escena más rico.

Aplicaciones en el mundo real

La tecnología NeRF está encontrando rápidamente aplicaciones en diversos ámbitos:

  • Realidad Virtual y Aumentada (RV/RA): Creación de entornos y objetos virtuales de gran realismo para experiencias inmersivas. Empresas como Meta están explorando técnicas similares para futuras plataformas de RV/RA(RV Wikipedia) como Meta Quest.
  • Entretenimiento y Efectos Visuales (VFX): Generación de actores digitales realistas, decorados y efectos complejos para películas y juegos, reduciendo potencialmente la necesidad de complejos modelados manuales(Soluciones VFX de Autodesk).
  • Gemelos digitales y simulación: Creación de réplicas virtuales muy precisas de objetos o entornos del mundo real para simulación, formación o inspección. Esto es relevante para aplicaciones industriales que utilizan plataformas como NVIDIA Omniverse.
  • Robótica y sistemas autónomos: Mejorar la comprensión de escenas para robots y vehículos autónomos proporcionando mapas 3D detallados a partir de datos de sensores, mejorando potencialmente la navegación y la interacción(IA en coches autoconducidos). Instituciones de investigación y empresas como Waymo y Boston Dynamics exploran la percepción 3D avanzada.
  • Comercio electrónico y archivo: Creación de visualizaciones interactivas en 3D de productos o lugares del patrimonio cultural a partir de simples capturas de imágenes.

El desarrollo de NeRF y técnicas relacionadas continúa rápidamente, impulsado por comunidades de investigación como SIGGRAPH y herramientas accesibles a través de plataformas como Ultralytics HUB, que facilitan el despliegue de modelos y su integración en sistemas de IA más amplios, incluidos los que utilizan Ultralytics YOLO para la percepción 2D.

Leer todo