Kiểm tra màu xanh lá cây
Liên kết được sao chép vào khay nhớ tạm

Meta Movie Gen: Tái hiện quá trình sáng tạo nội dung

Xem cách Meta Movie Gen định nghĩa lại việc tạo video và âm thanh. Tìm hiểu cách mô hình này cung cấp khả năng chỉnh sửa video chính xác và hỗ trợ tạo phương tiện được cá nhân hóa.

Cho dù bạn là một nhà làm phim đầy tham vọng hay một người sáng tạo nội dung thích tạo video cho khán giả của mình, việc có các công cụ AI giúp mở rộng khả năng sáng tạo của bạn luôn hữu ích. Gần đây, Meta đã ra mắt mô hình video tạo mới nhất của mình, được gọi là Meta Movie Gen. 

Thị trường AI tạo ra toàn cầu trong lĩnh vực truyền thông và giải trí được dự đoán sẽ đạt 11,57 tỷ đô la vào năm 2033, với các công ty như Runway, OpenAIMeta dẫn đầu trong các sáng kiến mang tính đột phá. Meta Movie Gen, nói riêng, rất tuyệt vời cho các ứng dụng như làm phim, tạo nội dung video và kể chuyện kỹ thuật số, giúp việc hiện thực hóa tầm nhìn sáng tạo thông qua các video chất lượng cao do AI tạo ra trở nên dễ dàng hơn bao giờ hết. Trong bài viết này, chúng ta sẽ khám phá Meta Movie Gen và cách thức hoạt động của nó. Chúng ta cũng sẽ xem xét kỹ hơn một số ứng dụng của nó. Hãy bắt đầu thôi!

Hình 1. Một khung hình của đoạn video clip được tạo bằng Meta Movie Gen.

Meta Movie Gen là gì?

Trước khi thảo luận về Meta Movie Gen là gì, chúng ta hãy cùng xem xét quá trình hình thành của nó. 

Những nỗ lực nghiên cứu của Meta liên quan đến AI tạo sinh bắt đầu với loạt mô hình Make-A-Scene của họ. Nghiên cứu này tập trung vào phương pháp AI tạo sinh đa phương thức giúp các nghệ sĩ và nhà tiên phong hiện thực hóa trí tưởng tượng của họ. Nghệ sĩ có thể nhập hình ảnh, âm thanh, video hoặc hoạt hình 3D để có được hình ảnh đầu ra mà họ mong muốn. Bước tiến tiếp theo trong đổi mới đến với các mô hình khuếch tán như mô hình Llama Image Foundation ( Emu ), giúp tạo ra hình ảnh và video có chất lượng cao hơn nhiều và cho phép chỉnh sửa hình ảnh.

Hình 2. Ví dụ về việc sử dụng bản phác thảo và văn bản đầu vào của Make-A-Scene để tạo ra hình ảnh.

Movie Gen là đóng góp mới nhất của Meta cho nghiên cứu AI tạo sinh . Nó kết hợp tất cả các phương thức đã đề cập trước đó và cho phép kiểm soát chi tiết hơn nữa để mọi người có thể sử dụng các mô hình theo những cách sáng tạo hơn. Meta Movie Gen là tập hợp các mô hình nền tảng để tạo ra các loại phương tiện khác nhau, bao gồm văn bản thành video, văn bản thành âm thanh và văn bản thành hình ảnh. Nó bao gồm bốn mô hình, được đào tạo trên sự kết hợp của các tập dữ liệu được cấp phép và công khai. 

Sau đây là tổng quan nhanh về các mô hình này:

  • Mô hình Video Movie Gen: Mô hình 30 tỷ tham số tạo ra video chất lượng cao từ lời nhắc văn bản. 
  • Mô hình Movie Gen Audio: Mô hình 13 tỷ tham số có thể tạo ra các bản nhạc nền đồng bộ với nội dung video. 
  • Mô hình Video tạo phim cá nhân hóa: Tạo video về những cá nhân cụ thể dựa trên lời nhắc văn bản và một hình ảnh duy nhất, giữ nguyên hình ảnh của họ. 
  • Mô hình Movie Gen Edit: Mô hình này cho phép chỉnh sửa video chi tiết dựa trên văn bản cho video thực tế và hư cấu. 

Đào tạo mô hình video Meta Movie Gen

Một số quy trình chính đã được thực hiện để tạo và đào tạo mô hình Movie Gen Video. Bước đầu tiên bao gồm thu thập và chuẩn bị dữ liệu trực quan , bao gồm hình ảnh và video clip, chủ yếu là các hoạt động của con người được lọc theo chất lượng, chuyển động và mức độ liên quan. Sau đó, dữ liệu được ghép nối với chú thích văn bản giải thích những gì đang diễn ra trong mỗi cảnh. Các chú thích, được tạo bằng mô hình LLaMa3 -Video của Meta , cung cấp thông tin chi tiết phong phú về nội dung của mỗi cảnh, nâng cao khả năng kể chuyện trực quan của mô hình.

Hình 3. Tổng quan về quy trình tuyển chọn dữ liệu trước khi đào tạo của mô hình Movie Gen Video.

Quá trình đào tạo bắt đầu với mô hình học cách chuyển đổi văn bản thành hình ảnh có độ phân giải thấp. Sau đó, nó tiến triển thành việc tạo các clip video đầy đủ thông qua sự kết hợp giữa đào tạo văn bản thành hình ảnh và văn bản thành video, sử dụng hình ảnh chất lượng ngày càng cao. 

Một công cụ có tên Temporal Autoencoder (TAE) đã nén các video để quản lý khối lượng dữ liệu lớn một cách hiệu quả. Việc tinh chỉnh đã làm sắc nét hơn nữa chất lượng video và một phương pháp có tên là model averageing (kết hợp nhiều đầu ra của mô hình để có kết quả mượt mà hơn, nhất quán hơn) đảm bảo tính nhất quán đầu ra cao hơn. Cuối cùng, video, ban đầu ở mức 768p, đã được nâng cấp lên độ phân giải 1080p sắc nét bằng kỹ thuật lấy mẫu không gian, giúp tăng độ phân giải hình ảnh bằng cách thêm dữ liệu pixel để có hình ảnh rõ nét hơn. Kết quả là đầu ra video chất lượng cao, chi tiết.

Khám phá khả năng của Meta Movie Gen

Các mô hình Meta Movie Gen chủ yếu hỗ trợ bốn khả năng khác nhau. Chúng ta hãy xem xét kỹ hơn từng khả năng.

Tạo Video và Âm thanh

Meta Movie Gen có thể tạo ra các video chất lượng cao. Các đoạn video clip này có thể dài tới 16 giây và chạy ở tốc độ 16 fps (khung hình trên giây), tạo ra hình ảnh chân thực, bắt chuyển động, tương tác và góc máy từ lời nhắc văn bản. Kết hợp với mô hình âm thanh 13 tỷ tham số, nó có thể tạo ra âm thanh đồng bộ, bao gồm âm thanh xung quanh, hiệu ứng Foley và nhạc, để phù hợp với hình ảnh. 

Thiết lập này đảm bảo trải nghiệm liền mạch, sống động, trong đó cả hình ảnh và âm thanh đều được căn chỉnh và chân thực trên nhiều cảnh và lời nhắc khác nhau. Ví dụ, các mô hình này được sử dụng để tạo các đoạn video clip về chú hà mã lùn nổi tiếng của Thái Lan, tên là Moo Deng .

Hình 4. Một khung hình trong đoạn video clip của Moo Deng được tạo bằng Meta's Movie Gen.

Tạo video cá nhân

Một khả năng thú vị khác của mô hình Meta Movie Gen là tạo video được cá nhân hóa. Người dùng có thể cung cấp hình ảnh của một người và lời nhắc văn bản mô tả cách tạo video clip, tạo ra video bao gồm người tham chiếu và kết hợp các chi tiết trực quan phong phú được chỉ định trong lời nhắc văn bản. Mô hình sử dụng cả hai đầu vào (hình ảnh và văn bản) để giữ nguyên ngoại hình độc đáo và chuyển động cơ thể tự nhiên của người đó, đồng thời theo dõi chính xác cảnh được mô tả trong lời nhắc.

Hình 5. Một ví dụ về khả năng tạo video cá nhân hóa của mô hình.

Chỉnh sửa video chính xác 

Sử dụng mô hình Movie Gen Edit, người dùng có thể cung cấp cả video clip và lời nhắc văn bản làm đầu vào để chỉnh sửa video theo những cách sáng tạo. Mô hình kết hợp việc tạo video với chỉnh sửa hình ảnh nâng cao để thực hiện các chỉnh sửa rất cụ thể, chẳng hạn như thêm, xóa hoặc thay thế các thành phần. Nó cũng có thể thực hiện các thay đổi toàn cục như sửa đổi nền của video clip hoặc phong cách tổng thể. Nhưng điều làm cho mô hình thực sự độc đáo là độ chính xác của nó: nó chỉ có thể nhắm mục tiêu vào các pixel cụ thể cần chỉnh sửa và để nguyên phần còn lại. Điều này bảo toàn nội dung gốc nhiều nhất có thể. 

Hình 6. Một số ví dụ về khả năng chỉnh sửa video của mô hình Movie Gen Edit.

Công cụ đánh giá chuẩn của Meta Movie Gen

Cùng với các mô hình AI tạo sinh , Meta cũng giới thiệu Movie Gen Bench, một bộ công cụ đánh giá chuẩn để kiểm tra hiệu suất của các mô hình AI tạo sinh . Nó đi kèm với hai công cụ chính: Movie Gen Video Bench và Movie Gen Audio Bench. Cả hai đều được thiết kế để kiểm tra các khía cạnh khác nhau của việc tạo video và âm thanh.

Sau đây là cái nhìn tổng quan về cả hai công cụ:

  • Movie Gen Video Bench : Gồm 1003 lời nhắc bao gồm nhiều loại thử nghiệm khác nhau như hoạt động của con người, động vật , phong cảnh thiên nhiên , vật lý cũng như các chủ đề và hoạt động bất thường. Điểm đánh giá chuẩn này đặc biệt có giá trị là phạm vi bao phủ của các mức chuyển động, đảm bảo rằng mô hình tạo video được thử nghiệm cho cả chuỗi nhanh và chậm.
  • Movie Gen Audio Bench: Được thiết kế để kiểm tra khả năng tạo âm thanh trên 527 lời nhắc. Những lời nhắc này được ghép nối với các video được tạo ra để đánh giá mức độ đồng bộ hóa hiệu ứng âm thanh và nhạc với nội dung trực quan của mô hình.
Hình 7. Sơ đồ cho thấy sự phân tích các lời nhắc đánh giá, với danh sách các khái niệm ở bên trái và một nhóm từ gồm các danh từ và động từ thường dùng ở bên phải.

Một ứng dụng thực tế của Meta Movie Gen

Bây giờ chúng ta đã tìm hiểu về mô hình Meta Movie Gen và cách chúng hoạt động, hãy cùng khám phá một trong những ứng dụng thực tế của chúng. 

Những đổi mới của AI trong làm phim

Một trong những ứng dụng thú vị nhất của Movie Gen của Meta là cách nó có thể biến đổi quá trình làm phim thông qua việc tạo video và âm thanh được hỗ trợ bởi AI. Với Movie Gen, người sáng tạo có thể tạo ra hình ảnh và âm thanh chất lượng cao từ các lời nhắc văn bản đơn giản, mở ra những cách mới để kể chuyện. 

Trên thực tế, Meta đã hợp tác với Blumhouse và một nhóm các nhà làm phim, thu thập phản hồi của họ về cách Movie Gen có thể hỗ trợ tốt nhất cho quá trình sáng tạo . Các nhà làm phim như Aneesh Chaganty, Spurlock Sisters và Casey Affleck đã thử nghiệm khả năng nắm bắt tâm trạng, tông màu và hướng trực quan của công cụ này. Họ phát hiện ra rằng các mô hình giúp khơi dậy những ý tưởng mới.

Chương trình thí điểm này đã chứng minh rằng mặc dù Movie Gen không thay thế được cách làm phim truyền thống, nhưng nó cung cấp cho các đạo diễn một cách mới để thử nghiệm các yếu tố hình ảnh và âm thanh một cách nhanh chóng và sáng tạo. Các nhà làm phim cũng đánh giá cao cách các tính năng chỉnh sửa của công cụ này cho phép họ chơi với âm thanh nền, hiệu ứng và phong cách hình ảnh một cách tự do hơn. 

Hình 8. Một khung hình của một bộ phim ngắn được tạo bằng Meta Movie Gen.

Những điểm chính

Meta Movie Gen là bước tiến trong việc sử dụng AI tạo ra video và âm thanh chất lượng cao từ các mô tả văn bản đơn giản. Công cụ này giúp người dùng dễ dàng tạo video chân thực và tùy chỉnh. Với các khả năng như chỉnh sửa video chính xác và tạo phương tiện truyền thông được cá nhân hóa, Meta Movie Gen cung cấp một bộ công cụ linh hoạt mở ra những khả năng mới cho việc kể chuyện, làm phim và hơn thế nữa. Bằng cách giúp việc tạo hình ảnh chi tiết và hữu ích trở nên dễ dàng hơn, Meta Movie Gen đang chuyển đổi cách tạo và sử dụng video trên nhiều lĩnh vực khác nhau và thiết lập một tiêu chuẩn mới cho việc tạo nội dung do AI thúc đẩy.

Để tìm hiểu thêm, hãy truy cập kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi. Khám phá các ứng dụng AI trong xe tự láinông nghiệp trên các trang giải pháp của chúng tôi. 🚀

Logo FacebookBiểu trưng TwitterBiểu tượng LinkedInBiểu tượng sao chép liên kết

Đọc thêm trong danh mục này

Hãy xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của machine learning