녹색 확인
링크가 클립보드에 복사됨

Google DeepMind의 Veo로 동영상 생성하기

텍스트, 이미지, 동영상 프롬프트에서 고품질 1080P 동영상을 손쉽게 제작할 수 있는 DeepMind의 최신 제너레이티브 동영상 모델인 Veo( Google )에 대해 자세히 알아보세요.

5월 14일에 열린 Google 의 2024 I/O 프레젠테이션에서 Facebook은 AI 사업부인 DeepMind의 최신 업데이트 소식을 공유했습니다. 가장 흥미로운 발전 사항 중 하나는 최신 제너레이티브 비디오 모델인 Veo였습니다. Veo는 텍스트, 이미지, 동영상 프롬프트를 기반으로 고품질 1080P 동영상을 제작할 수 있습니다. 또한 생성된 비디오를 후속 프롬프트를 통해 편집할 수도 있습니다. Veo는 제너레이티브 AI를 한 단계 더 발전시켰습니다. Veo가 제공하는 기능을 자세히 살펴보겠습니다. 

Veo의 기능 이해

Veo는 언어와 비주얼에 대한 깊은 이해를 바탕으로 사용자의 창의적인 비전에 가장 잘 부합하는 동영상을 제작하는 제너레이티브 동영상 모델입니다. 긴 프롬프트의 톤과 디테일을 정확하게 포착할 수 있어 아이디어를 정확한 동영상 콘텐츠로 전환하려는 크리에이터에게 강력한 도구입니다.

Veo는 "타임랩스" 및 "풍경의 항공 촬영"과 같은 영화 기법을 이해할 수 있기 때문에 사용자는 생성된 비디오를 획기적으로 창의적으로 제어할 수 있습니다. 이러한 창의적인 제어를 통해 사용자는 사람, 동물, 사물이 자연스럽게 움직이는 동영상을 제작할 수 있습니다. Veo로 생성된 동영상은 AI 모델에 의해 생성되었다는 사실을 알아차리기 어렵기 때문에 매력적이고 시각적으로 매력적입니다.

Veo는 단순히 프롬프트에서 비디오를 만드는 것 이상의 기능을 제공합니다. 이전에 생성한 동영상과 해안선의 항공 뷰에 카약을 삽입하는 등의 특정 편집 요청을 제공하면, Veo는 이러한 변경 사항을 원본 동영상에 원활하게 통합하여 업데이트된 버전을 생성할 수 있습니다.

그림 1. Veo를 사용한 동영상 편집 예시.

다음은 Veo가 제공하는 몇 가지 추가 기능입니다:

  • 마스크 편집: Veo는 동영상의 지정된 영역을 편집할 수 있도록 도와줍니다.
  • 이미지에서 영감을 받은 동영상 제작: Veo는 이미지와 텍스트 프롬프트를 사용하여 이미지의 스타일을 반영하고 프롬프트의 지시를 따르는 동영상을 생성할 수 있습니다.
  • 확장된 비디오 클립: Veo는 단일 프롬프트 또는 스토리를 함께 전달하는 일련의 프롬프트를 통해 60초 이상의 동영상 클립을 만들고 확장할 수 있습니다.

Veo가 제작한 놀라운 동영상

Veo가 제작한 동영상 중 몇 가지를 살펴보고 그 놀라운 이유를 알아봅시다. 

짧은 텍스트 프롬프트에서 타임랩스 동영상을 생성하는 것은 쉽지 않습니다. 일반적으로 짧은 텍스트 프롬프트는 타임랩스 장면 내의 변화와 움직임을 정확하게 전달할 수 없습니다. 따라서 자세한 설명 없이도 타임랩스 장면에서 무엇을 기대할 수 있는지 파악할 수 있다는 점은 놀랍습니다. 

그림 2. Veo가 생성한 타임랩스 비디오의 프레임.

마찬가지로 정확한 물리가 적용된 동영상을 생성하는 것도 쉽지 않습니다. AI 모델은 중력, 운동량, 충돌과 같은 물리 법칙을 이해하고 시뮬레이션하여 움직임과 상호 작용을 사실적으로 표현해야 합니다. Veo는 텍스트 프롬프트의 자세한 안내 없이도 이러한 역학을 정확하게 모델링할 수 있다는 점이 인상적입니다.

그림 3. Veo를 사용하여 생성된 비디오의 프레임은 해파리 움직임의 물리학을 정확하게 포착합니다.

지금까지 우리는 계산의 한계와 긴 시퀀스에서 일관성을 유지하는 복잡성 때문에 AI가 생성하는 짧은 동영상만 보아왔습니다. Google 의 2024 I/O 프레젠테이션에서는 더 길고 복잡한 동영상을 제작하는 Veo의 놀라운 능력이 공개되었습니다.

그림 4. Google 2024 I/O 프레젠테이션에 표시된 더 긴 Veo 비디오의 프레임.

Veo는 어떻게 작동하나요?

다른 많은 AI 모델과 마찬가지로, Veo는 거인들의 어깨 위에 서 있습니다. 이 모델은 GQN(생성 쿼리 네트워크), DVD-GAN, 이미지-비디오, 페나키, WALT, 비디오포에트, 뤼미에르, 그리고 Google의 독점적인 트랜스포머 아키텍처 및 제미니와 같은 이전의 발전된 기술을 활용하고 있습니다. 또한 프롬프트를 정확하게 해석하는 Veo의 능력을 향상시키기 위해 훈련 데이터 세트의 각 동영상 캡션이 더욱 상세해졌습니다. 

Google 에서 공유한 대략적인 모델 워크플로우를 기반으로 Veo가 작동하는 방식은 다음과 같습니다:

  • 입력 프롬프트: 텍스트 프롬프트와 선택 사항으로 이미지 프롬프트를 제공합니다.
  • 인코딩: 텍스트 프롬프트는 UL2 인코더로 처리하고 이미지 프롬프트는 이미지 인코더로 처리합니다.
  • 임베디드 프롬프트: 텍스트 및 이미지 인코더의 출력이 결합되어 하나의 임베디드 프롬프트를 형성합니다.
  • 잠복 확산 모델: 임베디드 프롬프트와 노이즈가 있는 압축 비디오가 이 모델에 전달되어 이를 사용하여 압축 비디오를 생성합니다. Veo는 품질을 유지하면서 효율성을 개선하기 위해 잠상이라고 하는 고품질의 압축 비디오 표현을 사용합니다.
  • 디코딩: 마지막 단계는 압축된 동영상에서 1080p 동영상 출력을 디코딩하는 단계입니다.
그림 5. Veo의 작동 방식.

영화 제작의 매력적인 사례 연구

영화 제작자 도널드 글로버( Google )와 그의 크리에이티브 스튜디오인 길가(Gilga)는 Veo의 기능을 테스트하기 위해 협력했습니다. 이들은 정확한 움직임과 일관된 프레이밍이 필요한 동적 트래킹 샷을 비롯한 다양한 크리에이티브 기법을 탐구하기 위해 Veo를 사용했습니다. 

그림 6. 영화 제작 과정에서 Veo 사용.

전통적으로 영화 제작자는 시간과 리소스의 제약으로 인해 한계에 직면했습니다. 하지만 베오를 통해 글로버와 그의 팀은 복잡한 샷을 빠르게 실험하고 생성할 수 있게 되었고, 그 결과 영화 제작 과정에서 더 많은 유연성과 혁신이 가능해졌습니다.

베오를 통해 글로버와 그의 팀은 실제 촬영 전에 복잡한 샷을 빠르게 실험하고 생성할 수 있었습니다. 예를 들어, 다양한 동적 트래킹 샷을 테스트하여 어떻게 보일지 확인하고 필요에 따라 조정할 수 있었습니다. 이러한 사전 시각화 프로세스를 통해 아이디어를 구체화하고 샷이 의도한 대로 작동하는지 확인하여 궁극적으로 실제 촬영 시 필요한 테이크 횟수를 줄일 수 있었습니다. 그들은 영화 산업을 변화시킬 수 있는 Veo의 잠재력을 입증하는 매력적인 사례 연구를 만들 수 있었습니다. 창의적인 비전을 더 빠르고 효율적으로 실현할 수 있는 방법을 제공합니다.

다양한 산업에서 Veo의 실제 사용 사례 

Veo의 고급 동영상 생성 기능은 다양한 산업 분야에서 실용적으로 활용되고 있습니다. 광고에서는 타겟 고객을 위한 맞춤형 고품질 광고를 신속하게 제작하여 시간과 제작 비용을 절감할 수 있습니다. 교육 분야에서는 복잡한 개념을 보다 쉽게 이해할 수 있도록 매력적인 교육용 동영상을 제작할 수 있습니다. 

기업에서는 교육 및 기업 커뮤니케이션에 Veo를 사용할 수 있습니다. 의료 전문가는 교육 목적으로 의료 절차를 시뮬레이션하는 데 Veo를 사용할 수 있습니다. 가상 이벤트 및 컨퍼런스와 관련하여 Veo는 장소와 무대를 실제와 같은 시뮬레이션으로 만들어 참석자에게 어디서나 매력적인 인터랙티브 경험을 제공할 수 있습니다. 주최자는 향후 이벤트를 위한 확장된 도달 범위와 귀중한 인사이트를 얻을 수 있습니다. Veo 덕분에 수많은 기회가 열렸습니다.

AI 모델이 다양한 산업에 영향을 미칠 수 있는 잠재력을 가지고 있다면 안전과 윤리적 AI를 염두에 두는 것이 중요합니다. 더 폭넓은 채택을 가능하게 하고 책임감 있는 사용을 보장하기 위해 Google 에서는 몇 가지 안전 조치를 시행하고 있습니다. Veo에서 제작한 동영상은 AI로 생성된 콘텐츠를 워터마킹하고 식별하기 위한 도구인 SynthID를 사용하여 워터마킹됩니다. SynthID는 투명성을 보장하고 개인정보 보호, 저작권 및 편견 위험을 완화하는 데 도움이 됩니다. 이 외에도 생성된 모든 동영상은 안전 필터와 암기 확인 프로세스를 거칩니다. 이러한 안전장치를 통해 Veo는 책임감 있고 혁신적인 동영상 제작을 지원하는 가치 있고 윤리적인 도구가 되었습니다.

Veo에 액세스하는 위치

앞으로 몇 주 내에 Google 에서 일부 크리에이터에게 실험실에서 사용할 수 있는 새로운 도구인 VideoFX를 통해 Veo의 획기적인 기능 중 일부를 제공할 예정입니다(google). 이 이니셔티브를 통해 Veo의 고급 동영상 생성 기능을 미리 사용해 볼 수 있으며, 크리에이터는 혁신적인 기능을 실험해 볼 수 있는 기회를 갖게 됩니다. 현재 Veo의 대 기자 명단이 공개되어 있으며, 관심 있는 크리에이터는 누구나 등록하여 프로젝트에 Veo의 강력한 도구를 사용할 수 있습니다.

딥마인드의 2024년 제너레이티브 AI 업데이트에 대해 자세히 알아보기

딥마인드는 베오 외에도 2024년 제너레이티브 AI에 몇 가지 최첨단 업데이트를 도입했습니다. 이러한 업데이트 중 하나는 가장 진보된 텍스트-이미지 변환 모델인 Imagen 3입니다. Imagen 3는 사실적이고 생생한 이미지를 생성하는 데 탁월합니다. 자연어 프롬프트를 깊이 이해하고 시각적 아티팩트를 최소화하면서 복잡한 디테일을 캡처합니다.

그림 7. Imagen 3을 사용하여 생성된 이미지.

또한, 딥마인드는 AI 음악 생성을 위한 가장 진보된 모델인 Lyria를 개발했습니다. 이러한 노력의 일환으로 딥마인드는 음악 AI 샌드박스라는 음악 AI 도구 모음을 만들었습니다. 이러한 도구를 통해 뮤지션과 프로듀서는 음악 작곡과 사운드 변환에 있어 새로운 창의적 가능성을 탐색할 수 있습니다.

그림 8. 딥마인드 AI 음악 도구의 UI 예시.

베오와 마찬가지로, 딥마인드는 다른 업데이트에 대해서도 몇 가지 안전 조치를 시행했습니다. 이러한 업데이트에서 SynthID는 AI가 생성한 콘텐츠를 워터마킹하고 식별하는 도구로 사용될 것입니다. 딥마인드의 이러한 업데이트는 고품질의 시각 및 오디오 콘텐츠 제작을 위한 효율적이고 책임감 있는 고급 도구를 제공함으로써 다양한 산업에 변화를 가져올 것으로 기대됩니다.

다음 단계의 제너레이티브 AI 탐색하기

Veo, Imagen 3, Lyria를 포함한 2024년 DeepMind의 제너레이티브 AI 발전은 AI 기능의 상당한 도약을 의미합니다. Veo는 간단한 지시를 통해 고화질 1080p 동영상을 생성하는 기능으로 동영상 제작을 혁신하여 영화 제작자와 콘텐츠 크리에이터를 위한 다용도 도구로 활용되고 있습니다. Imagen 3는 사실적인 이미지 제작에 탁월하며, Lyria는 고급 AI 도구를 통해 음악 제작의 새로운 가능성을 제시합니다.

이러한 기술은 고품질의 시각 및 오디오 콘텐츠를 제작할 수 있는 효율적이고 책임감 있는 도구를 제공함으로써 다양한 산업을 변화시킬 것입니다. SynthID와 같은 안전 조치를 통해 윤리적 사용을 보장하는 딥마인드는 AI의 경계를 지속적으로 확장하여 미래의 혁신적인 애플리케이션을 위한 기반을 마련하고 있습니다.

깃허브 리포지토리를 방문하고 커뮤니티에 가입하여 AI에 대해 자세히 알아보세요. 솔루션 페이지를 살펴보고 제조농업 분야에서 AI가 어떻게 적용되는지 알아보세요.

Facebook 로고트위터 로고LinkedIn 로고복사 링크 기호

이 카테고리에서 자세히 보기

인공지능의 미래
를 함께 만들어 갑시다!

머신 러닝의 미래와 함께하는 여정 시작하기