Thuật ngữ

Trường bức xạ thần kinh (NeRF)

Khám phá sức mạnh của Neural Radiance Fields (NeRF) cho các cảnh 3D chân thực, VR/AR, robot và sáng tạo nội dung. Khám phá ngay!

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Neural Radiance Fields (NeRF) đại diện cho một phương pháp tiếp cận mang tính đột phá trong Trí tuệ nhân tạo (AI)học máy (ML) , đặc biệt là trong thị giác máy tính (CV) và đồ họa máy tính. Chúng cung cấp một phương pháp để tạo ra các biểu diễn 3D có độ chi tiết cao, chân thực của các cảnh phức tạp chỉ bằng cách sử dụng một bộ sưu tập các hình ảnh 2D được chụp từ các góc nhìn khác nhau. Không giống như các kỹ thuật mô hình hóa 3D truyền thống dựa trên các cấu trúc hình học rõ ràng như lưới hoặc đám mây điểm, NeRF sử dụng các mô hình học sâu (DL) , cụ thể là mạng nơ-ron (NN) , để tìm hiểu biểu diễn liên tục, ngầm định về hình học và diện mạo của một cảnh. Điều này cho phép tạo ra các góc nhìn mới của cảnh từ các góc không có trong các hình ảnh gốc, một quá trình được gọi là tổng hợp góc nhìn mới, với độ trung thực và chân thực đáng chú ý.

Khái niệm cốt lõi của NeRF

Về bản chất, mô hình NeRF là một loại biểu diễn nơ-ron ngầm cụ thể. Nó liên quan đến việc đào tạo một mạng nơ-ron sâu, thường là Multi-Layer Perceptron (MLP), thường được xây dựng bằng các khuôn khổ như PyTorch hoặc TensorFlow . Mạng này học một hàm ánh xạ tọa độ không gian 3D (vị trí x, y, z) và hướng xem 2D (nơi máy ảnh đang nhìn từ) thành màu sắc (giá trị RGB) và mật độ thể tích (về cơ bản, điểm đó mờ đục hay trong suốt như thế nào) tại điểm cụ thể đó trong không gian khi nhìn từ hướng đó.

Quá trình đào tạo sử dụng một tập hợp các hình ảnh 2D đầu vào của một cảnh được chụp từ các vị trí và hướng camera đã biết. Điều này yêu cầu dữ liệu hiệu chuẩn camera chính xác cho dữ liệu đào tạo . Mạng học bằng cách so sánh các pixel được kết xuất từ biểu diễn hiện tại của nó với các pixel thực tế trong các hình ảnh đầu vào, điều chỉnh trọng số mô hình của nó thông qua truyền ngược để giảm thiểu sự khác biệt. Bằng cách truy vấn hàm đã học này cho nhiều điểm dọc theo các tia camera đi qua các pixel của camera ảo, NeRF có thể kết xuất các hình ảnh có độ chi tiết cao từ các góc nhìn hoàn toàn mới. Đào tạo các mô hình này thường đòi hỏi sức mạnh tính toán đáng kể, thường là tận dụng GPU . Để tìm hiểu sâu hơn về mặt kỹ thuật, bài báo gốc, " NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis ", cung cấp thông tin chi tiết toàn diện.

Sự liên quan và ý nghĩa

Tầm quan trọng của NeRF nằm ở khả năng chưa từng có của nó trong việc nắm bắt và tạo ra các góc nhìn chân thực của các cảnh phức tạp. Nó rất xuất sắc trong việc thể hiện các chi tiết phức tạp và các hiệu ứng phụ thuộc vào góc nhìn như phản xạ, khúc xạ, độ trong mờ và ánh sáng phức tạp, thường là thách thức đối với các phương pháp đồ họa 3D truyền thống như lưới đa giác hoặc voxel. Vì toàn bộ biểu diễn cảnh được lưu trữ ngầm trong các trọng số của mạng nơ-ron được đào tạo, các mô hình NeRF có thể đạt được các biểu diễn cực kỳ nhỏ gọn so với các phương pháp rõ ràng như đám mây điểm dày đặc hoặc lưới có độ phân giải cao, đặc biệt là đối với các cảnh phức tạp về mặt thị giác. Sự tiến bộ này mở rộng ranh giới của tái tạo 3D và điện toán trực quan.

NeRF so với các kỹ thuật biểu diễn 3D khác

Điều quan trọng là phải phân biệt NeRF với các phương pháp khác được sử dụng trong mô hình hóa 3D và thị giác máy tính:

  • Biểu diễn rõ ràng (Lưới, Đám mây điểm, Voxel): Các phương pháp truyền thống định nghĩa hình học rõ ràng bằng cách sử dụng các đỉnh, mặt, điểm hoặc ô lưới. Mặc dù hiệu quả đối với nhiều tác vụ, chúng có thể gặp khó khăn với các kết cấu phức tạp, độ trong suốt và các hiệu ứng phụ thuộc vào chế độ xem và kích thước tệp có thể trở nên rất lớn đối với các cảnh chi tiết. NeRF cung cấp một biểu diễn ngầm , học một hàm liên tục.
  • Ảnh trắc lượng: Kỹ thuật này cũng sử dụng nhiều hình ảnh 2D để tái tạo các cảnh 3D, thường tạo ra các lưới hoặc đám mây điểm ( Wikipedia Ảnh trắc lượng ). Mặc dù đã hoàn thiện, nhưng ảnh trắc lượng đôi khi vẫn gặp khó khăn với các bề mặt không có kết cấu, phản xạ và cấu trúc mỏng so với khả năng tổng hợp chế độ xem của NeRF.
  • Các tác vụ CV khác: NeRF tập trung vào việc biểu diễn và tổng hợp cảnh. Điều này khác với các tác vụ như Phát hiện đối tượng (xác định vị trí các đối tượng bằng hộp giới hạn ), Phân loại hình ảnh (gắn nhãn cho hình ảnh) hoặc Phân đoạn hình ảnh (phân loại cấp độ pixel), phân tích nội dung hình ảnh thay vì tạo ra các góc nhìn mới của cảnh 3D. Tuy nhiên, NeRF có khả năng bổ sung cho các tác vụ này bằng cách cung cấp bối cảnh cảnh phong phú hơn.

Ứng dụng trong thế giới thực

Công nghệ NeRF đang nhanh chóng tìm thấy ứng dụng trong nhiều lĩnh vực khác nhau:

  • Thực tế ảo và thực tế tăng cường (VR/AR): Tạo ra các môi trường và đối tượng ảo có độ chân thực cao cho trải nghiệm nhập vai. Các công ty như Meta đang khám phá các kỹ thuật tương tự cho các nền tảng VR/AR ( Wikipedia VR ) trong tương lai như Meta Quest .
  • Giải trí và Hiệu ứng hình ảnh (VFX): Tạo ra các diễn viên, bối cảnh kỹ thuật số và hiệu ứng phức tạp cho phim và trò chơi, có khả năng giảm nhu cầu sử dụng mô hình thủ công phức tạp ( Autodesk VFX Solutions ).
  • Digital Twins và mô phỏng: Xây dựng bản sao ảo có độ chính xác cao của các đối tượng hoặc môi trường trong thế giới thực để mô phỏng, đào tạo hoặc kiểm tra. Điều này có liên quan đến các ứng dụng công nghiệp sử dụng các nền tảng như NVIDIA Omniverse .
  • Robot và Hệ thống tự động: Nâng cao khả năng hiểu bối cảnh cho robot và xe tự hành bằng cách cung cấp bản đồ 3D chi tiết từ dữ liệu cảm biến, có khả năng cải thiện khả năng điều hướng và tương tác ( AI trong xe tự lái ). Các tổ chức nghiên cứu và công ty như WaymoBoston Dynamics đang khám phá nhận thức 3D tiên tiến.
  • Thương mại điện tử và lưu trữ: Tạo hình ảnh 3D tương tác về sản phẩm hoặc di sản văn hóa từ những hình ảnh chụp đơn giản.

Sự phát triển của NeRF và các kỹ thuật liên quan tiếp tục diễn ra nhanh chóng, được thúc đẩy bởi các cộng đồng nghiên cứu như SIGGRAPH và các công cụ dễ tiếp cận thông qua các nền tảng như Ultralytics HUB , giúp triển khai và tích hợp mô hình vào các hệ thống AI rộng hơn, bao gồm cả những hệ thống sử dụng mô hình Ultralytics YOLO để nhận thức 2D.

Đọc tất cả