Glossário

Campos de radiação neural (NeRF)

Descobre o poder dos Neural Radiance Fields (NeRF) para cenas 3D fotorrealistas, VR/AR, robótica e criação de conteúdos. Explora agora!

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Os Campos de Radiância Neural (Neural Radiance Fields - NeRF) representam uma abordagem inovadora no domínio da Inteligência Artificial (IA) e da aprendizagem automática (ML), em particular na visão por computador (CV) e na computação gráfica. Oferecem um método para criar representações 3D altamente detalhadas e fotorrealistas de cenas complexas utilizando apenas uma coleção de imagens 2D capturadas de diferentes pontos de vista. Ao contrário das técnicas tradicionais de modelação 3D que se baseiam em estruturas geométricas explícitas, como malhas ou nuvens de pontos, os NeRF utilizam modelos de aprendizagem profunda (DL), especificamente redes neuronais (NN), para aprender uma representação implícita e contínua da geometria e do aspeto de uma cena. Isto permite a geração de novas vistas da cena a partir de ângulos não presentes nas imagens originais, um processo conhecido como síntese de novas vistas, com fidelidade e realismo notáveis.

Conceito central do NeRF

Na sua essência, um modelo NeRF é um tipo específico de representação neural implícita. Envolve o treinamento de uma rede neural profunda, geralmente um Perceptron de Múltiplas Camadas (MLP), normalmente construído usando estruturas como PyTorch ou TensorFlow. Esta rede aprende uma função que mapeia uma coordenada espacial 3D (localização x, y, z) e uma direção de visualização 2D (de onde a câmara está a olhar) para a cor (valores RGB) e densidade de volume (essencialmente, quão opaco ou transparente é esse ponto) nesse ponto específico no espaço, visto dessa direção.

O processo de formação utiliza um conjunto de imagens 2D de entrada de um cenário obtido a partir de posições e orientações conhecidas da câmara. Isto requer dados precisos de calibração da câmara para os dados de treino. A rede aprende comparando os pixels renderizados da sua representação atual com os pixels reais nas imagens de entrada, ajustando os pesos do seu modelo através de retropropagação para minimizar a diferença. Ao consultar esta função aprendida para muitos pontos ao longo dos raios da câmara que passam pelos pixéis de uma câmara virtual, a NeRF pode apresentar imagens altamente detalhadas a partir de pontos de vista totalmente novos. O treinamento desses modelos geralmente requer um poder computacional significativo, normalmente utilizando GPUs. Para um mergulho técnico mais profundo, o artigo original,"NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis", fornece detalhes abrangentes.

Relevância e significado

A importância do NeRF reside na sua capacidade sem precedentes de capturar e apresentar vistas fotorrealistas de cenas complexas. É excelente na representação de detalhes intrincados e efeitos dependentes da vista, como reflexos, refrações, translucidez e iluminação complexa, que muitas vezes são um desafio para os métodos tradicionais de gráficos 3D, como malhas de polígonos ou voxels. Como toda a representação da cena é armazenada implicitamente nos pesos da rede neural treinada, os modelos NeRF podem obter representações altamente compactas em comparação com métodos explícitos, como nuvens de pontos densas ou malhas de alta resolução, especialmente para cenas visualmente complexas. Este avanço ultrapassa os limites da reconstrução 3D e da computação visual.

NeRF vs. Outras Técnicas de Representação 3D

É importante distinguir o NeRF de outros métodos utilizados na modelação 3D e na visão por computador:

  • Representações explícitas (Malhas, Nuvens de Pontos, Voxels): Os métodos tradicionais definem a geometria explicitamente utilizando vértices, faces, pontos ou células de grelha. Embora sejam eficazes para muitas tarefas, podem ter dificuldades com texturas complexas, transparência e efeitos dependentes da vista, e os tamanhos dos ficheiros podem tornar-se muito grandes para cenas detalhadas. O NeRF oferece uma representação implícita, aprendendo uma função contínua.
  • Fotogrametria: Esta técnica também utiliza várias imagens 2D para reconstruir cenas 3D, resultando frequentemente em malhas ou nuvens de pontos(Wikipedia Photogrammetry). Embora madura, a fotogrametria pode por vezes ter dificuldades com superfícies sem textura, reflexos e estruturas finas, em comparação com as capacidades de síntese de vistas do NeRF.
  • Outras tarefas CV: O NeRF concentra-se na representação e síntese de cenas. Isto difere de tarefas como a Deteção de Objectos (localização de objectos com caixas delimitadoras), Classificação de Imagens (rotulagem de uma imagem) ou Segmentação de Imagens (classificação ao nível do pixel), que analisam o conteúdo da imagem em vez de gerar novas vistas de uma cena 3D. No entanto, o NeRF poderia potencialmente complementar estas tarefas, fornecendo um contexto de cena mais rico.

Aplicações no mundo real

A tecnologia NeRF está a encontrar rapidamente aplicações em vários domínios:

  • Realidade virtual e aumentada (RV/RA): Cria ambientes e objectos virtuais altamente realistas para experiências imersivas. Empresas como a Meta estão a explorar técnicas semelhantes para futuras plataformas de RV/RA(Wikipedia VR) como a Meta Quest.
  • Entretenimento e efeitos visuais (VFX): Geração de actores digitais realistas, cenários e efeitos complexos para filmes e jogos, reduzindo potencialmente a necessidade de modelação manual complexa(Autodesk VFX Solutions).
  • Gémeos digitais e simulação: Construir réplicas virtuais altamente precisas de objectos ou ambientes do mundo real para simulação, formação ou inspeção. Isto é relevante para aplicações industriais que utilizam plataformas como o NVIDIA Omniverse.
  • Robótica e sistemas autónomos: Melhorar a compreensão da cena para robôs e veículos autónomos, fornecendo mapas 3D detalhados a partir de dados de sensores, melhorando potencialmente a navegação e a interação(IA em carros autónomos). Instituições de investigação e empresas como a Waymo e a Boston Dynamics exploram a perceção 3D avançada.
  • Comércio eletrónico e arquivo: Criação de visualizações 3D interactivas de produtos ou sítios de património cultural a partir de simples capturas de imagens.

O desenvolvimento do NeRF e das técnicas relacionadas prossegue rapidamente, impulsionado por comunidades de investigação como a SIGGRAPH e por ferramentas acessíveis através de plataformas como o Ultralytics HUB, que facilitam a implementação e a integração de modelos em sistemas de IA mais vastos, incluindo os que utilizam Ultralytics YOLO para a perceção 2D.

Lê tudo