용어집

신경 방사 필드(NeRF)

사실적인 3D 장면, VR/AR, 로봇 공학 및 콘텐츠 제작을 위한 신경 방사 필드(NeRF)의 강력한 성능을 알아보세요. 지금 살펴보세요!

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

신경 방사 필드(NeRF)는 특히 컴퓨터 비전(CV) 과 컴퓨터 그래픽 분야에서 인공지능(AI)머신러닝(ML)의 획기적인 접근 방식입니다. 다양한 시점에서 캡처한 2D 이미지 모음만으로 복잡한 장면을 매우 세밀하고 사실적인 3D로 표현할 수 있는 방법을 제공합니다. 메시나 포인트 클라우드와 같은 명시적인 기하학적 구조에 의존하는 기존의 3D 모델링 기법과 달리 NeRF는 딥러닝(DL) 모델, 특히 신경망(NN)을 활용하여 장면의 지오메트리와 모양을 암시적이고 연속적으로 학습합니다. 이를 통해 원본 이미지에 없는 각도에서 장면의 새로운 뷰를 생성할 수 있는데, 이를 새로운 뷰 합성이라고 하며 놀라운 충실도와 사실감으로 표현합니다.

NeRF의 핵심 개념

NeRF 모델의 핵심은 암시적 신경 표현의 특정 유형입니다. 여기에는 일반적으로 다음과 같은 프레임워크를 사용하여 구축되는 다층 퍼셉트론(MLP)인 심층 신경망의 훈련이 포함됩니다. PyTorch 또는 TensorFlow. 이 네트워크는 3D 공간 좌표(x, y, z 위치)와 2D 시청 방향(카메라가 바라보는 방향)을 해당 방향에서 바라본 공간의 특정 지점의 색상(RGB 값) 및 볼륨 밀도(기본적으로 해당 지점이 얼마나 불투명하거나 투명한지)에 매핑하는 함수를 학습합니다.

훈련 프로세스에서는 알려진 카메라 위치와 방향에서 촬영한 장면의 입력 2D 이미지 세트를 사용합니다. 이를 위해서는 훈련 데이터에 대한 정확한 카메라 보정 데이터가 필요합니다. 네트워크는 현재 표현에서 렌더링된 픽셀과 입력 이미지의 실제 픽셀을 비교하여 학습하고, 그 차이를 최소화하기 위해 역전파를 통해 모델 가중치를 조정합니다. 이 학습된 함수를 가상 카메라의 픽셀을 통과하는 카메라 광선을 따라 많은 지점에 대해 쿼리함으로써 NeRF는 완전히 새로운 관점에서 매우 상세한 이미지를 렌더링할 수 있습니다. 이러한 모델을 훈련하려면 상당한 연산 능력이 필요한 경우가 많으며, 일반적으로 GPU를 활용합니다. 기술적으로 더 자세히 알아보려면 원본 논문인"NeRF: 뷰 합성을 위한 신경 방사장으로 장면 표현하기"에서 포괄적인 세부 정보를 확인할 수 있습니다.

관련성 및 중요성

NeRF의 중요성은 복잡한 장면을 사실적으로 캡처하고 렌더링할 수 있는 전례 없는 능력에 있습니다. 폴리곤 메시나 복셀과 같은 기존 3D 그래픽 방식으로는 표현하기 어려운 복잡한 디테일과 반사, 굴절, 반투명, 복잡한 조명과 같은 뷰에 따라 달라지는 효과를 표현하는 데 탁월합니다. 전체 장면 표현이 훈련된 신경망의 가중치 내에 암시적으로 저장되기 때문에 NeRF 모델은 특히 시각적으로 복잡한 장면에서 고밀도 포인트 클라우드나 고해상도 메시와 같은 명시적인 방법에 비해 매우 컴팩트한 표현을 구현할 수 있습니다. 이러한 발전은 3D 재구성 및 시각적 컴퓨팅의 경계를 넓혀줍니다.

NeRF와 다른 3D 표현 기술 비교

3D 모델링 및 컴퓨터 비전에 사용되는 다른 방법과 NeRF를 구별하는 것이 중요합니다:

  • 명시적 표현(메시, 포인트 클라우드, 복셀): 기존 방식은 정점, 면, 점 또는 그리드 셀을 사용하여 지오메트리를 명시적으로 정의합니다. 많은 작업에 효과적이지만 복잡한 텍스처, 투명도, 뷰에 따른 효과로 인해 어려움을 겪을 수 있으며, 세부적인 장면의 경우 파일 크기가 매우 커질 수 있습니다. NeRF는 연속 함수를 학습하는 암시적 표현을 제공합니다.
  • 사진측량: 이 기술은 여러 2D 이미지를 사용하여 3D 장면을 재구성하며, 종종 메시 또는 포인트 클라우드를 생성합니다(위키백과 사진측량). 사진 측량 기법은 성숙해졌지만 NeRF의 뷰 합성 기능에 비해 텍스처가 없는 표면, 반사, 얇은 구조로 인해 어려움을 겪을 수 있습니다.
  • 기타 CV 작업: NeRF는 장면 표현과 합성에 중점을 둡니다. 이는 3D 장면의 새로운 보기를 생성하기보다는 이미지 콘텐츠를 분석하는 객체 감지 ( 경계 상자가 있는 객체 찾기), 이미지 분류 (이미지에 라벨 지정) 또는 이미지 분할 (픽셀 수준 분류)과 같은 작업과는 다릅니다. 그러나 NeRF는 보다 풍부한 장면 컨텍스트를 제공함으로써 이러한 작업을 보완할 수 있습니다.

실제 애플리케이션

NeRF 기술은 다양한 영역에서 빠르게 응용 분야를 찾고 있습니다:

  • 가상 및 증강 현실(VR/AR): 몰입형 경험을 위한 매우 사실적인 가상 환경과 오브젝트 제작. Meta와 같은 회사에서는 Meta Quest와 같은 미래의 VR/AR(Wikipedia VR) 플랫폼을 위해 유사한 기술을 연구하고 있습니다.
  • 엔터테인먼트 및 시각 효과(VFX): 영화와 게임을 위한 사실적인 디지털 배우, 세트 및 복잡한 효과를 생성하여 복잡한 수동 모델링의 필요성을 잠재적으로 줄입니다(Autodesk VFX 솔루션).
  • 디지털 트윈과 시뮬레이션: 시뮬레이션, 교육 또는 검사를 위해 실제 사물 또는 환경의 매우 정확한 가상 복제본을 구축합니다. 이는 NVIDIA Omniverse와 같은 플랫폼을 사용하는 산업용 애플리케이션과 관련이 있습니다.
  • 로봇 공학 및 자율 시스템: 센서 데이터에서 상세한 3D 지도를 제공하여 로봇과 자율 주행 차량의 장면 이해를 향상시키고, 잠재적으로 내비게이션과 상호 작용(자율 주행 차량의 AI)을 개선합니다. Waymo, Boston Dynamics와 같은 연구 기관 및 기업에서 고급 3D 인식을 탐구하고 있습니다.
  • 전자상거래 및 아카이빙: 간단한 이미지 캡처를 통해 제품이나 문화유산의 인터랙티브 3D 시각화를 제작합니다.

NeRF 및 관련 기술의 개발은 SIGGRAPH와 같은 연구 커뮤니티와 다음과 같은 광범위한 AI 시스템으로의 모델 배포 및 통합을 용이하게 하는 Ultralytics HUB와 같은 플랫폼을 통한 액세스 도구의 주도로 빠르게 진행되고 있습니다. Ultralytics YOLO 모델을 사용하는 것을 포함하여 더 광범위한 AI 시스템에 통합할 수 있습니다.

모두 보기