녹색 확인
링크가 클립보드에 복사됨

메타 무비 Gen: 콘텐츠 제작의 재구성

메타 무비 젠이 동영상 및 사운드 제작을 어떻게 재정의하고 있는지 알아보세요. 이 모델이 어떻게 정밀한 동영상 편집을 제공하고 개인화된 미디어 제작을 지원하는지 알아보세요.

영화 제작자 지망생이든, 시청자를 위한 동영상 제작을 즐기는 콘텐츠 크리에이터이든, 창의력을 확장하는 AI 도구는 언제나 도움이 됩니다. 최근 메타는 최신 제너레이티브 동영상 모델인 메타 무비 젠을 출시했습니다. 

미디어 및 엔터테인먼트 분야의 글로벌 제너레이티브 AI 시장은 2033년까지 115억 7천만 달러에 달할 것으로 예상되며, 런웨이, OpenAI, 메타 같은 기업이 획기적인 혁신을 주도하고 있습니다. 특히 메타 무비 젠은 영화 제작, 동영상 콘텐츠 제작, 디지털 스토리텔링과 같은 애플리케이션에 적합하며, 고품질의 AI 생성 동영상을 통해 창의적인 비전을 그 어느 때보다 쉽게 실현할 수 있도록 해줍니다. 이 글에서는 메타 무비 젠과 그 작동 방식에 대해 살펴보겠습니다. 또한 몇 가지 응용 프로그램도 자세히 살펴보겠습니다. 시작해 보겠습니다!

그림 1. 메타 무비 젠을 사용하여 생성된 비디오 클립의 프레임.

메타 무비 젠이란 무엇인가요?

메타 무비 젠이 무엇인지 논의하기 전에 메타 무비 젠이 어떻게 탄생하게 되었는지 살펴봅시다. 

메타의 제너레이티브 AI 관련 연구 노력은 Make-A-Scene 시리즈 모델에서 시작되었습니다. 이 연구는 아티스트와 비전가가 상상력을 현실로 구현하는 데 도움이 되는 멀티모달 제너레이티브 AI 방식에 초점을 맞추고 있습니다. 아티스트는 이미지, 오디오, 비디오 또는 3D 애니메이션을 입력해 원하는 이미지 결과물을 얻을 수 있습니다. 다음 단계의 혁신은 훨씬 더 높은 품질의 이미지와 동영상을 생성하고 이미지 편집을 가능하게 하는 라마 이미지 재단 모델(Emu)과 같은 확산 모델을 통해 이루어졌습니다.

그림 2. Make-A-Scene의 스케치와 텍스트 입력을 사용하여 생성된 이미지를 가져오는 예제입니다.

무비 젠은 메타가 제너레이티브 AI 연구에 기여한 최신 결과물입니다. 앞서 언급한 모든 양식을 결합하고 더욱 세밀하게 제어할 수 있어 사람들이 보다 창의적인 방식으로 모델을 사용할 수 있습니다. 메타 무비 젠은 텍스트 대 비디오, 텍스트 대 오디오, 텍스트 대 이미지 등 다양한 유형의 미디어를 생성하기 위한 기본 모델 모음입니다. 라이선스 및 공개적으로 사용 가능한 데이터 세트의 조합으로 학습된 네 가지 모델로 구성되어 있습니다. 

다음은 이러한 모델에 대한 간략한 개요입니다:

  • Movie Gen 비디오 모델: 텍스트 프롬프트에서 고품질 동영상을 생성하는 300억 개의 매개변수가 있는 모델입니다. 
  • 무비 젠 오디오 모델: 동영상 콘텐츠와 동기화되는 사운드트랙을 만들 수 있는 130억 개의 파라미터가 있는 모델입니다. 
  • 개인화된 무비 젠 비디오 모델: 텍스트 프롬프트와 단일 이미지를 기반으로 특정 개인에 대한 동영상을 생성하며, 해당 개인의 모습을 유지합니다. 
  • Movie Gen 편집 모델: 이 모델에서는 실제 및 가상의 동영상에 대한 상세한 텍스트 기반 동영상 편집이 가능합니다. 

메타 무비 젠 비디오 모델 훈련

Movie Gen 비디오 모델을 만들고 훈련하는 데는 몇 가지 주요 프로세스가 포함되었습니다. 첫 번째 단계는 주로 화질, 움직임, 관련성에 따라 필터링된 인간 활동의 이미지와 비디오 클립을 포함한 시각적 데이터를 수집하고 준비하는 것이었습니다. 그런 다음 이 데이터를 각 장면에서 일어나는 일을 설명하는 텍스트 캡션과 결합했습니다. Meta의 LLaMa3-Video 모델을 사용하여 생성된 캡션은 각 장면의 내용에 대한 풍부한 세부 정보를 제공하여 모델의 시각적 스토리텔링 기능을 향상시켰습니다.

그림 3. Movie Gen 비디오 모델의 사전 학습 데이터 큐레이션 파이프라인 개요.

훈련 과정은 텍스트를 저해상도 이미지로 변환하는 모델 학습으로 시작되었습니다. 그런 다음 점점 더 높은 품질의 비주얼을 사용하여 텍스트 대 이미지 및 텍스트 대 비디오 훈련을 결합하여 전체 비디오 클립을 만드는 단계로 진행되었습니다. 

템포럴 자동 인코더(TAE)라는 도구가 동영상을 압축하여 대용량의 데이터를 효율적으로 관리했습니다. 미세 조정을 통해 비디오 품질을 더욱 선명하게 만들었고, 모델 평균화(여러 모델의 출력을 결합하여 더 부드럽고 일관된 결과를 얻는 방법)를 통해 출력의 일관성을 높였습니다. 마지막으로, 픽셀 데이터를 추가하여 이미지 해상도를 높이는 공간 업샘플러 기술을 사용하여 처음에 768p였던 비디오를 선명한 1080p 해상도로 업스케일링하여 더 선명한 영상을 만들었습니다. 그 결과 고품질의 디테일한 영상이 출력되었습니다.

메타 무비 세대 기능 살펴보기

메타 무비 세대 모델은 주로 네 가지 능력을 지원합니다. 각각에 대해 자세히 살펴보겠습니다.

비디오 및 오디오 생성

메타 무비 젠은 고품질 동영상을 생성할 수 있습니다. 이러한 비디오 클립은 최대 16초 길이에 16fps(초당 프레임 수)로 실행되어 텍스트 프롬프트에서 동작, 상호 작용 및 카메라 각도를 캡처하는 사실적인 비주얼을 만들 수 있습니다. 130억 개의 파라미터로 구성된 오디오 모델과 결합하여 주변 소리, 폴리 효과, 음악 등 동기화된 오디오를 시각적 효과에 맞게 생성할 수 있습니다. 

이 설정은 다양한 장면과 프롬프트에서 시각과 오디오가 모두 일치하고 사실적으로 유지되는 매끄럽고 실제와 같은 경험을 보장합니다. 예를 들어, 이 모델은 태국에서 유행하는 돼지 하마 ' 무뎅'의 비디오 클립을 제작하는 데 사용되었습니다.

그림 4. 메타의 Movie Gen을 사용하여 제작한 무뎅의 비디오 클립 프레임.

개인 맞춤형 비디오 생성

메타 무비 젠 모델의 또 다른 흥미로운 기능은 개인화된 동영상 생성입니다. 사용자는 인물의 이미지와 비디오 클립 생성 방법을 설명하는 텍스트 프롬프트를 제공하여 참조 인물이 포함되고 텍스트 프롬프트에 지정된 풍부한 시각적 세부 정보가 포함된 비디오를 생성할 수 있습니다. 모델은 두 입력(이미지와 텍스트)을 모두 사용하여 인물의 고유한 외모와 자연스러운 신체 움직임을 유지하면서 프롬프트에 설명된 장면을 정확하게 따라갑니다.

그림 5. 모델의 개인화된 비디오 생성 기능의 예시입니다.

정밀한 동영상 편집 

동영상 생성 편집 모델을 사용하여 사용자는 비디오 클립과 텍스트 프롬프트를 모두 입력으로 제공하여 창의적인 방식으로 비디오를 편집할 수 있습니다. 이 모델은 동영상 생성과 고급 이미지 편집을 결합하여 요소 추가, 제거 또는 교체와 같은 매우 구체적인 편집을 수행합니다. 또한 비디오 클립의 배경이나 전체 스타일을 수정하는 것과 같은 전역 변경을 수행할 수도 있습니다. 하지만 이 모델의 가장 큰 특징은 편집이 필요한 특정 픽셀만 타겟팅하고 나머지는 그대로 둘 수 있다는 정밀성입니다. 따라서 원본 콘텐츠를 최대한 보존할 수 있습니다. 

그림 6. Movie Gen Edit 모델의 동영상 편집 기능에 대한 다양한 예시.

메타 무비 젠의 벤치마킹 도구

메타는 제너레이티브 AI 모델과 함께 제너레이티브 AI 모델의 성능을 테스트할 수 있는 벤치마킹 도구 모음인 무비 젠 벤치도 소개했습니다. 이 도구에는 두 가지 주요 도구가 포함되어 있습니다: 무비 젠 비디오 벤치와 무비 젠 오디오 벤치. 두 도구 모두 비디오 및 오디오 생성의 다양한 측면을 테스트하도록 설계되었습니다.

두 도구에 대해 간략히 소개합니다:

  • 무비 젠 비디오 벤치: 인간 활동, 동물, 자연 풍경, 물리, 특이한 주제와 활동 등 다양한 테스트 카테고리를 포괄하는 1003개의 프롬프트로 구성되어 있습니다. 이 평가 벤치마크가 특히 가치 있는 이유는 모션 레벨을 포함하기 때문에 비디오 생성 모델이 빠르게 진행되는 시퀀스와 느린 시퀀스 모두에 대해 테스트할 수 있다는 점입니다.
  • 무비 젠 오디오 벤치: 527개의 프롬프트에서 오디오 생성 기능을 테스트하도록 설계되었습니다. 이러한 프롬프트는 생성된 비디오와 함께 모델이 음향 효과 및 음악을 시각적 콘텐츠와 얼마나 잘 동기화할 수 있는지 평가합니다.
그림 7. 이 다이어그램은 왼쪽에 개념 목록이 있고 오른쪽에 자주 사용되는 명사와 동사의 워드 클라우드가 있는 평가 프롬프트의 세분화를 보여줍니다.

메타 무비 젠의 실제 적용

이제 메타 무비 젠 모델이 무엇이며 어떻게 작동하는지 살펴봤으니, 실제 적용 사례 중 하나를 살펴보겠습니다. 

영화 제작의 무비젠 AI 혁신

메타의 무비 젠의 가장 흥미로운 용도 중 하나는 AI 기반 비디오 및 오디오 제작을 통해 영화 제작을 혁신할 수 있다는 점입니다. 무비 젠을 사용하면 크리에이터는 간단한 텍스트 프롬프트에서 고품질의 비주얼과 사운드를 생성하여 스토리를 전달하는 새로운 방법을 열 수 있습니다. 

실제로 메타는 블룸하우스 및 영화 제작자 그룹과 협력하여 Movie Gen이 창작 과정을 가장 잘 지원할 수 있는 방법에 대한 피드백을 수집했습니다. Aneesh Chaganty, 스펄록 시스터즈, 케이시 애플렉과 같은 영화 제작자들은 분위기, 톤, 시각적 연출을 포착하는 도구의 기능을 테스트했습니다. 이들은 이 모델이 새로운 아이디어를 떠올리게 하는 데 도움이 된다는 사실을 발견했습니다.

이 파일럿 프로그램을 통해 Movie Gen이 기존 영화 제작을 대체하지는 못하지만, 감독에게 시각 및 오디오 요소를 빠르고 창의적으로 실험할 수 있는 새로운 방법을 제공한다는 것을 알 수 있었습니다. 또한 영화 제작자들은 이 도구의 편집 기능을 통해 배경 사운드, 효과 및 시각적 스타일을 보다 자유롭게 활용할 수 있다는 점을 높이 평가했습니다. 

그림 8. 메타 무비 젠을 사용하여 제작한 단편 영화의 프레임.

주요 내용

메타 무비 젠은 제너레이티브 AI를 사용하여 간단한 텍스트 설명으로 고품질의 동영상과 사운드를 만드는 데 한 걸음 더 나아간 도구입니다. 이 도구를 사용하면 사실적인 맞춤형 동영상을 쉽게 제작할 수 있습니다. 정밀한 동영상 편집 및 개인화된 미디어 생성과 같은 기능을 갖춘 메타 무비 젠은 스토리텔링, 영화 제작 등에 새로운 가능성을 열어주는 유연한 도구 세트를 제공합니다. 메타 무비 젠은 섬세하고 유용한 비주얼을 더 쉽게 제작할 수 있도록 함으로써 다양한 분야에서 동영상을 제작하고 사용하는 방식을 혁신하고 AI 기반 콘텐츠 제작의 새로운 표준을 제시하고 있습니다.

자세히 알아보려면 GitHub 리포지토리를 방문하여 커뮤니티에 참여하세요. 솔루션 페이지에서 자율 주행 차량과 농업 분야의 AI 애플리케이션을 살펴보세요. 🚀

Facebook 로고트위터 로고LinkedIn 로고복사 링크 기호

이 카테고리에서 자세히 보기

인공지능의 미래
를 함께 만들어 갑시다!

머신 러닝의 미래와 함께하는 여정 시작하기