Google 딥마인드 Veo: 새로운 AI 동영상 생성기

5월 14일에 열린 Google 2024 I/O 프레젠테이션에서는 AI 사업부인 DeepMind의 최신 업데이트가 공유되었습니다. 가장 흥미로운 발전 사항 중 하나는 최신 제너레이티브 비디오 모델인 Veo였습니다. Veo는 텍스트, 이미지, 동영상 프롬프트를 기반으로 고품질 1080P 동영상을 제작할 수 있습니다. 또한 생성된 비디오를 후속 프롬프트를 통해 편집할 수도 있습니다. Veo는 제너레이티브 AI를 한 단계 더 발전시켰습니다. Veo가 제공하는 기능을 자세히 살펴보겠습니다.

Veo의 기능 이해

Veo는 언어와 시각적 요소를 깊이 이해하여 사용자의 창의적인 비전에 밀접하게 부합하는 비디오를 생성하는 생성형 비디오 모델입니다. 더 긴 프롬프트의 톤과 세부 사항을 정확하게 캡처할 수 있으므로 아이디어를 정확한 비디오 콘텐츠로 변환하려는 제작자에게 강력한 도구입니다.

Veo는 '타임랩스' 및 '풍경의 항공 촬영'과 같은 영화 기술을 이해할 수 있기 때문에 사용자는 생성된 비디오에 대한 획기적인 창의적 제어력을 가질 수 있습니다. 이러한 창의적 제어 덕분에 사람, 동물 및 사물이 자연스럽게 움직이는 비디오를 만들 수 있습니다. Veo에서 생성된 비디오는 AI 모델에서 생성되었다는 것을 알아채기 어렵기 때문에 매력적이고 시각적으로 매력적입니다.

Veo는 프롬프트에서 비디오를 단순히 생성하는 것을 넘어섭니다. 이전에 생성된 비디오와 해안선의 항공 뷰에 카약을 삽입하는 것과 같은 특정 편집 요청을 제공하면 Veo는 이 변경 사항을 원본 비디오에 원활하게 통합하여 업데이트된 버전을 생성할 수 있습니다.

Veo에서 제공하는 더 많은 기능은 다음과 같습니다.

마스크 편집: Veo는 비디오의 정의된 영역을 편집하는 데 도움을 줄 수 있습니다.
‍
이미지 기반 비디오 생성: 이미지와 텍스트 프롬프트를 사용하여 Veo는 이미지의 스타일을 반영하고 프롬프트의 지시를 따르는 비디오를 생성할 수 있습니다.
‍
확장된 비디오 클립: Veo는 단일 프롬프트 또는 스토리를 함께 전달하는 일련의 프롬프트에서 60초 이상의 비디오 클립을 생성하고 확장할 수 있습니다.

Veo가 생성한 놀라운 비디오

Veo가 생성한 몇 가지 비디오와 그 이유가 그토록 놀라운지에 대해 살펴보겠습니다.

짧은 텍스트 프롬프트에서 타임랩스 비디오를 생성하는 것은 어렵습니다. 일반적으로 짧은 텍스트 프롬프트는 타임랩스 장면 내의 변경 사항과 움직임을 정확하게 전달할 수 없습니다. 따라서 Veo가 세부 사항에 들어가지 않고도 타임랩스에서 기대할 수 있는 것을 이해할 수 있다는 것은 놀라운 일입니다.

‍

마찬가지로, 정확한 물리 법칙을 사용하여 비디오를 생성하는 것은 쉽지 않습니다. AI 모델은 움직임과 상호 작용이 현실적으로 보이도록 중력, 운동량 및 충돌과 같은 물리 법칙을 이해하고 시뮬레이션해야 합니다. Veo가 텍스트 프롬프트에서 자세한 지침 없이 이러한 역학을 정확하게 모델링할 수 있다는 것은 인상적입니다.

Fig 3. Veo를 사용하여 생성된 비디오의 프레임으로, 해파리 움직임의 물리학을 정확하게 캡처합니다.

‍

지금까지는 계산의 한계와 긴 시퀀스에서 일관성을 유지해야 하는 복잡성 때문에 AI가 생성하는 짧은 동영상만 볼 수 있었습니다. Google2024 I/O 프레젠테이션에서 Veo는 더 길고 복잡한 동영상을 제작하는 놀라운 능력을 선보였습니다.

그림 4. Google 2024 I/O 프레젠테이션에서 상영된 더 긴 Veo 비디오의 프레임.

‍

Veo는 어떻게 작동하나요?

다른 많은 AI 모델과 마찬가지로, Veo는 거인들의 어깨 위에 서 있습니다. GQN(생성 쿼리 네트워크), DVD-GAN, 이미지-비디오, 페나키, WALT, 비디오포에트, 뤼미에르와 같은 이전의 발전된 기술뿐만 아니라 Google독점적인 트랜스포머 아키텍처와 제미니를 활용하고 있습니다. 또한 프롬프트를 정확하게 해석하는 Veo의 능력을 향상시키기 위해 학습 데이터 세트의 각 동영상 캡션이 더욱 상세해졌습니다.

Google 공유한 대략적인 모델 워크플로우를 기반으로 Veo가 작동하는 방식은 다음과 같습니다:

입력 프롬프트: 텍스트 프롬프트와 선택적으로 이미지 프롬프트를 제공합니다.
‍
인코딩: 텍스트 프롬프트는 UL2 인코더에 의해 처리되고, 이미지 프롬프트는 이미지 인코더에 의해 처리됩니다.
임베디드 프롬프트: 텍스트 및 이미지 인코더의 출력이 결합되어 단일 임베디드 프롬프트를 형성합니다.
‍
잠재 확산 모델: 내장된 프롬프트와 노이즈가 있는 압축된 비디오가 이 모델로 전달되어 압축된 비디오를 생성합니다. Veo는 고품질의 압축된 비디오 표현(잠재 변수라고 함)을 사용하여 품질을 유지하면서 효율성을 향상시킵니다.
‍
디코딩: 마지막 단계는 압축된 비디오에서 1080p 비디오 출력을 디코딩합니다.

‍

영화 제작에 대한 설득력 있는 사례 연구

Google Veo의 기능을 테스트하기 위해 영화 제작자 Donald Glover 및 그의 크리에이티브 스튜디오인 Gilga와 협력했습니다. 이들은 Veo를 사용하여 정밀한 움직임과 일관된 프레임이 필요한 동적 트래킹 샷을 비롯한 다양한 크리에이티브 기법을 탐구했습니다.

‍

전통적으로 영화 제작자는 시간과 자원 제약으로 인해 한계에 직면합니다. Glover와 그의 팀은 Veo를 통해 복잡한 장면을 빠르게 실험하고 생성할 수 있었고, 이는 결과적으로 영화 제작 과정에서 더 많은 유연성과 혁신을 제공했습니다.

Veo를 통해 Glover와 그의 팀은 실제 촬영 전에 복잡한 장면을 빠르게 실험하고 생성할 수 있었습니다. 예를 들어 다양한 동적 추적 장면을 테스트하여 어떻게 보이는지 확인하고 필요에 따라 조정할 수 있었습니다. 이러한 사전 시각화 프로세스는 아이디어를 개선하고 장면이 의도한 대로 작동하도록 하는 데 도움이 되었으며 궁극적으로 실제 촬영 중에 필요한 테이크 수를 줄였습니다. 그들은 Veo가 영화 산업을 변화시킬 잠재력을 보여주는 설득력 있는 사례 연구를 만들 수 있었습니다. 창의적인 비전을 실현하는 더 빠르고 효율적인 방법을 제공합니다.

다양한 산업 분야에서 Veo의 실제 사용

Veo의 고급 비디오 생성 기능은 여러 산업 분야에서 실질적인 응용 프로그램을 제공합니다. 광고에서는 타겟 고객을 위해 맞춤화된 고품질 광고를 신속하게 제작하여 시간과 제작 비용을 절약할 수 있습니다. 교육에서는 Veo가 매력적인 교육용 비디오를 만들어 복잡한 개념을 더 쉽게 이해할 수 있도록 합니다.

기업은 Veo를 교육 및 기업 커뮤니케이션에 사용할 수 있습니다. 의료 전문가들은 교육 목적으로 Veo를 사용하여 의료 절차를 시뮬레이션할 수 있습니다. 가상 이벤트 및 컨퍼런스와 관련하여 Veo는 장소 및 무대의 실감나는 시뮬레이션을 만들어 참석자에게 어디에서나 매력적이고 상호 작용적인 경험을 제공할 수 있습니다. 주최자는 확장된 도달 범위와 향후 이벤트를 위한 귀중한 통찰력을 얻을 수 있습니다. Veo 덕분에 수많은 기회가 열렸습니다.

AI 모델이 다양한 산업에 영향을 미칠 수 있는 잠재력이 있는 경우, 안전과 윤리적 AI를 염두에 두는 것이 중요합니다. 광범위한 채택을 가능하게 하고 책임감 있는 사용을 보장하기 위해 Google 몇 가지 안전 조치를 구현했습니다. Veo에서 생성된 동영상은 AI로 생성된 콘텐츠를 워터마킹하고 식별하는 도구인 SynthID를 사용하여 워터마킹됩니다. SynthID는 투명성을 보장하고 개인정보 보호, 저작권 및 편견 위험을 완화하는 데 도움이 됩니다. 이 외에도 생성된 모든 동영상은 안전 필터와 암기 확인 프로세스를 거칩니다. 이러한 안전장치를 통해 Veo는 책임감 있고 혁신적인 동영상 제작을 지원하는 가치 있고 윤리적인 도구가 되었습니다.

Veo 액세스 방법

앞으로 몇 주 안에 Google 일부 크리에이터에게 labsgoogle 사용할 수 있는 새로운 도구인 VideoFX를 통해 Veo의 획기적인 기능 중 일부를 제공하기 시작할 예정입니다. 이 이니셔티브를 통해 Veo의 고급 동영상 생성 기능을 미리 사용해 볼 수 있으며, 크리에이터는 혁신적인 기능을 실험해 볼 수 있는 기회를 갖게 됩니다. 현재 Veo의 대 기자 명단이 공개되어 있으며, 관심 있는 크리에이터는 누구나 등록하여 프로젝트에 Veo의 강력한 도구를 사용할 수 있습니다.

DeepMind의 2024년 생성 AI 업데이트에 대한 추가 정보

Veo 외에도 DeepMind는 2024년에 생성형 AI 분야에서 여러 최첨단 업데이트를 발표했습니다. 그중 하나는 가장 발전된 텍스트-이미지 모델인 Imagen 3입니다. Imagen 3는 실사처럼 생생한 이미지를 만드는 데 탁월하며, 자연어 프롬프트를 깊이 이해하고 복잡한 디테일을 포착하는 동시에 시각적 결함을 최소화합니다.

‍

DeepMind는 또한 AI 음악 생성을 위한 최첨단 모델인 Lyria를 개발했습니다. 이러한 노력의 일환으로 DeepMind는 Music AI Sandbox라는 음악 AI 도구 모음을 만들었습니다. 이러한 도구를 통해 음악가와 프로듀서는 음악 작곡 및 사운드 변환에서 새로운 창의적 가능성을 탐색할 수 있습니다.

‍

Veo와 유사하게 DeepMind는 다른 업데이트와 관련해서도 여러 안전 조치를 구현했습니다. SynthID는 AI가 생성한 콘텐츠를 워터마킹하고 식별하는 도구로 이러한 업데이트 전반에 걸쳐 사용될 예정입니다. DeepMind의 이러한 업데이트는 고품질의 시각 및 오디오 콘텐츠를 생성하기 위한 고급스럽고 효율적이며 책임감 있는 도구를 제공함으로써 다양한 산업을 혁신할 것을 약속합니다.

생성형 AI의 다음 단계 탐색

Veo, Imagen 3 및 Lyria를 포함한 DeepMind의 2024년 생성 AI 발전은 AI 기능에서 상당한 도약을 의미합니다. Veo는 간단한 프롬프트에서 고품질 1080p 비디오를 생성하는 기능을 통해 비디오 제작을 혁신하여 영화 제작자와 콘텐츠 제작자에게 다재다능한 도구가 됩니다. Imagen 3는 실사적인 이미지를 생성하는 데 탁월하며, Lyria는 고급 AI 도구를 통해 음악 생성에 새로운 가능성을 제시합니다.

이러한 기술은 고품질 시각 및 오디오 콘텐츠를 만들기 위한 효율적이고 책임감 있는 도구를 제공함으로써 다양한 산업을 변화시킬 것을 약속합니다. SynthID와 같은 안전 조치를 통해 윤리적 사용을 보장하면서 DeepMind는 AI의 경계를 계속 확장하여 미래의 혁신적인 애플리케이션을 위한 길을 열고 있습니다.

GitHub 저장소를 방문하고 커뮤니티에 참여하여 AI를 경험해 보세요. 솔루션 페이지에서 AI가 제조 및 농업에 어떻게 적용되는지 알아보세요.

Google 딥마인드의 Veo로 동영상 생성하기

Veo의 기능 이해

Veo가 생성한 놀라운 비디오

Veo는 어떻게 작동하나요?

영화 제작에 대한 설득력 있는 사례 연구

다양한 산업 분야에서 Veo의 실제 사용

Veo 액세스 방법

DeepMind의 2024년 생성 AI 업데이트에 대한 추가 정보

생성형 AI의 다음 단계 탐색

이 카테고리에서 더 읽어보기

컴퓨터 비전으로 구현된 12가지 항공 이미지 활용 사례

의료 진단을 위한 비전 AI 도구

데이터에서 의사결정으로: 기업 전략을 위한 비전 AI 활용

함께 미래의 AI를 만들어 갑시다!