사실적인 3D 장면, VR/AR, 로봇 공학 및 콘텐츠 제작을 위한 신경 방사 필드(NeRF)의 강력한 성능을 알아보세요. 지금 살펴보세요!
신경 방사 필드(NeRF)는 특히 컴퓨터 비전(CV) 과 컴퓨터 그래픽 분야에서 인공지능(AI) 과 머신러닝(ML)의 획기적인 접근 방식입니다. 다양한 시점에서 캡처한 2D 이미지 모음만으로 복잡한 장면을 매우 세밀하고 사실적인 3D로 표현할 수 있는 방법을 제공합니다. 메시나 포인트 클라우드와 같은 명시적인 기하학적 구조에 의존하는 기존의 3D 모델링 기법과 달리 NeRF는 딥러닝(DL) 모델, 특히 신경망(NN)을 활용하여 장면의 지오메트리와 모양을 암시적이고 연속적으로 학습합니다. 이를 통해 원본 이미지에 없는 각도에서 장면의 새로운 뷰를 생성할 수 있는데, 이를 새로운 뷰 합성이라고 하며 놀라운 충실도와 사실감으로 표현합니다.
NeRF 모델의 핵심은 암시적 신경 표현의 특정 유형입니다. 여기에는 일반적으로 다음과 같은 프레임워크를 사용하여 구축되는 다층 퍼셉트론(MLP)인 심층 신경망의 훈련이 포함됩니다. PyTorch 또는 TensorFlow. 이 네트워크는 3D 공간 좌표(x, y, z 위치)와 2D 시청 방향(카메라가 바라보는 방향)을 해당 방향에서 바라본 공간의 특정 지점의 색상(RGB 값) 및 볼륨 밀도(기본적으로 해당 지점이 얼마나 불투명하거나 투명한지)에 매핑하는 함수를 학습합니다.
훈련 프로세스에서는 알려진 카메라 위치와 방향에서 촬영한 장면의 입력 2D 이미지 세트를 사용합니다. 이를 위해서는 훈련 데이터에 대한 정확한 카메라 보정 데이터가 필요합니다. 네트워크는 현재 표현에서 렌더링된 픽셀과 입력 이미지의 실제 픽셀을 비교하여 학습하고, 그 차이를 최소화하기 위해 역전파를 통해 모델 가중치를 조정합니다. 이 학습된 함수를 가상 카메라의 픽셀을 통과하는 카메라 광선을 따라 많은 지점에 대해 쿼리함으로써 NeRF는 완전히 새로운 관점에서 매우 상세한 이미지를 렌더링할 수 있습니다. 이러한 모델을 훈련하려면 상당한 연산 능력이 필요한 경우가 많으며, 일반적으로 GPU를 활용합니다. 기술적으로 더 자세히 알아보려면 원본 논문인"NeRF: 뷰 합성을 위한 신경 방사장으로 장면 표현하기"에서 포괄적인 세부 정보를 확인할 수 있습니다.
NeRF의 중요성은 복잡한 장면을 사실적으로 캡처하고 렌더링할 수 있는 전례 없는 능력에 있습니다. 폴리곤 메시나 복셀과 같은 기존 3D 그래픽 방식으로는 표현하기 어려운 복잡한 디테일과 반사, 굴절, 반투명, 복잡한 조명과 같은 뷰에 따라 달라지는 효과를 표현하는 데 탁월합니다. 전체 장면 표현이 훈련된 신경망의 가중치 내에 암시적으로 저장되기 때문에 NeRF 모델은 특히 시각적으로 복잡한 장면에서 고밀도 포인트 클라우드나 고해상도 메시와 같은 명시적인 방법에 비해 매우 컴팩트한 표현을 구현할 수 있습니다. 이러한 발전은 3D 재구성 및 시각적 컴퓨팅의 경계를 넓혀줍니다.
3D 모델링 및 컴퓨터 비전에 사용되는 다른 방법과 NeRF를 구별하는 것이 중요합니다:
NeRF 기술은 다양한 영역에서 빠르게 응용 분야를 찾고 있습니다:
NeRF 및 관련 기술의 개발은 SIGGRAPH와 같은 연구 커뮤니티와 다음과 같은 광범위한 AI 시스템으로의 모델 배포 및 통합을 용이하게 하는 Ultralytics HUB와 같은 플랫폼을 통한 액세스 도구의 주도로 빠르게 진행되고 있습니다. Ultralytics YOLO 모델을 사용하는 것을 포함하여 더 광범위한 AI 시스템에 통합할 수 있습니다.