Kiểm tra màu xanh lá cây
Liên kết được sao chép vào khay nhớ tạm

Tạo video với Google Veo của DeepMind

Tìm hiểu thêm về Veo, Google Mô hình video tạo hình mới nhất của DeepMind có thể dễ dàng tạo video 1080P chất lượng cao từ lời nhắc văn bản, hình ảnh và video.

Trong GoogleBài thuyết trình I/O năm 2024 vào ngày 14/5, họ đã chia sẻ những cập nhật mới nhất từ DeepMind, bộ phận AI của họ. Một trong những tiến bộ thú vị nhất được chia sẻ là mô hình video thế hệ mới nhất của họ, Veo. Veo có thể tạo video 1080P chất lượng cao dựa trên lời nhắc văn bản, hình ảnh và video. Nó thậm chí còn cho phép bạn chỉnh sửa các video đã tạo với lời nhắc tiếp theo. Veo đưa AI tạo ra lên một tầm cao mới. Chúng ta hãy xem xét kỹ hơn các tính năng mà Veo cung cấp. 

Hiểu khả năng của Veo

Veo là một mô hình video tổng hợp sử dụng sự hiểu biết sâu sắc về ngôn ngữ và hình ảnh để tạo video phù hợp chặt chẽ với tầm nhìn sáng tạo của người dùng. Nó có thể nắm bắt giai điệu và chi tiết của lời nhắc dài hơn một cách chính xác, làm cho nó trở thành một công cụ mạnh mẽ cho những người sáng tạo muốn chuyển đổi ý tưởng của họ thành nội dung video chính xác.

Người dùng có thể có quyền kiểm soát sáng tạo đột phá đối với video được tạo vì Veo có thể hiểu các kỹ thuật phim như "timelapse" và "cảnh quay phong cảnh trên không". Khả năng kiểm soát sáng tạo này giúp người dùng có thể tạo video trong đó con người, động vật và đồ vật di chuyển tự nhiên. Các video do Veo tạo ra rất hấp dẫn và hấp dẫn về mặt hình ảnh vì rất khó để phát hiện ra rằng chúng được tạo bởi một mô hình AI.

Veo không chỉ đơn thuần là tạo video từ lời nhắc. Nếu bạn cung cấp video đã tạo trước đó và yêu cầu chỉnh sửa cụ thể, chẳng hạn như chèn thuyền kayak vào chế độ xem trên không của bờ biển, Veo có thể tích hợp liền mạch thay đổi này vào video gốc, tạo ra phiên bản cập nhật.

Hình 1. Một ví dụ về chỉnh sửa video bằng Veo.

Dưới đây là một số tính năng khác mà Veo cung cấp:

  • Chỉnh sửa mặt nạ: Veo có thể giúp bạn chỉnh sửa các khu vực được xác định của video.
  • Tạo video lấy cảm hứng từ hình ảnh: Sử dụng hình ảnh và lời nhắc văn bản, Veo có thể tạo video phản ánh phong cách của hình ảnh và làm theo hướng dẫn của lời nhắc.
  • Video clip mở rộng: Veo có thể tạo và mở rộng các video clip lên 60 giây trở lên, từ một lời nhắc duy nhất hoặc một chuỗi lời nhắc cùng nhau kể một câu chuyện.

Video ngoạn mục mà Veo đã tạo ra

Hãy xem qua một số video mà Veo đã tạo ra và tại sao nó lại ngoạn mục như vậy. 

Tạo video tua nhanh thời gian từ lời nhắc văn bản ngắn là một thách thức. Thông thường, lời nhắc văn bản ngắn không thể truyền tải chính xác các thay đổi và chuyển động trong cảnh tua nhanh thời gian. Vì vậy, thật đáng kinh ngạc khi Veo có thể hiểu những gì mong đợi từ một timelapse mà không đi sâu vào chi tiết. 

Hình 2. Một khung hình từ video tua nhanh thời gian mà Veo tạo ra.

Tương tự, việc tạo video với vật lý chính xác là không dễ dàng. Mô hình AI cần hiểu và mô phỏng các định luật vật lý như trọng lực, động lượng và va chạm để làm cho các chuyển động và tương tác trở nên chân thực. Điều ấn tượng là Veo có thể mô hình hóa chính xác các động lực này mà không cần hướng dẫn chi tiết từ lời nhắc bằng văn bản.

Hình 3. Một khung hình từ video được tạo bằng Veo ghi lại chính xác vật lý của chuyển động của sứa.

Cho đến nay, chúng ta chỉ thấy các video ngắn hơn do AI tạo ra do các hạn chế tính toán và sự phức tạp của việc duy trì sự gắn kết trên các chuỗi dài hơn. Tại GoogleBản trình bày I/O năm 2024 của Veo Khả năng tạo video dài hơn và phức tạp hơn của Veo đã được thể hiện.

Hình 4. Khung hình từ video Veo dài hơn được hiển thị tại Google Bản trình bày I/O năm 2024.

Veo hoạt động như thế nào?

Giống như nhiều mô hình AI khác, Veo đứng trên vai những người khổng lồ. Nó rút ra từ những tiến bộ trước đó như Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet và Lumiere, cũng như GoogleKiến trúc Transformer độc quyền của và Gemini. Thêm vào đó, để cải thiện khả năng diễn giải lời nhắc chính xác của Veo, chú thích của mỗi video trong bộ dữ liệu đào tạo của nó chi tiết hơn. 

Dựa trên quy trình làm việc mô hình thô được chia sẻ bởi Google, đây là cách Veo hoạt động:

  • Lời nhắc nhập: Bạn cung cấp lời nhắc bằng văn bản và, tùy chọn, lời nhắc bằng hình ảnh.
  • Mã hóa: Lời nhắc văn bản được xử lý bởi Bộ mã hóa UL2 và lời nhắc hình ảnh được xử lý bởi bộ mã hóa hình ảnh.
  • Lời nhắc nhúng: Các đầu ra từ bộ mã hóa văn bản và hình ảnh được kết hợp để tạo thành một lời nhắc nhúng duy nhất.
  • Mô hình khuếch tán tiềm ẩn: Lời nhắc nhúng và video nén ồn ào được chuyển đến mô hình này tạo video nén bằng cách sử dụng chúng. Veo sử dụng các biểu diễn video nén, chất lượng cao, được gọi là tiềm ẩn, để cải thiện hiệu quả trong khi vẫn duy trì chất lượng.
  • Giải mã: Bước cuối cùng giải mã đầu ra video 1080p từ video nén.
Hình 5. Cách thức hoạt động của Veo.

Một nghiên cứu điển hình hấp dẫn trong làm phim

Để kiểm tra khả năng của Veo, Google hợp tác với nhà làm phim Donald Glover và xưởng sáng tạo của ông, Gilga. Họ đã sử dụng Veo để khám phá các kỹ thuật sáng tạo khác nhau, bao gồm các bức ảnh theo dõi động, đòi hỏi chuyển động chính xác và khung hình nhất quán. 

Hình 6. Sử dụng Veo trong quá trình làm phim.

Theo truyền thống, các nhà làm phim phải đối mặt với những hạn chế do hạn chế về thời gian và nguồn lực. Với Veo, Glover và nhóm của ông có thể nhanh chóng thử nghiệm và tạo ra những cảnh quay phức tạp, từ đó mang lại sự linh hoạt và đổi mới hơn trong quá trình làm phim.

Với Veo, Glover và nhóm của anh ấy có thể nhanh chóng thử nghiệm và tạo ra những cảnh quay phức tạp trước khi quay phim thực tế. Ví dụ: họ có thể kiểm tra các ảnh theo dõi động khác nhau để xem chúng trông như thế nào và thực hiện các điều chỉnh khi cần. Quá trình hình dung trước này đã giúp họ tinh chỉnh ý tưởng của mình và đảm bảo rằng các cảnh quay sẽ hoạt động như dự định, cuối cùng giảm số lần chụp cần thiết trong quá trình quay phim thực tế. Họ đã có thể tạo ra một nghiên cứu điển hình hấp dẫn để chứng minh tiềm năng của Veo trong việc thay đổi ngành công nghiệp điện ảnh. Nó cung cấp một cách nhanh hơn và hiệu quả hơn để đưa tầm nhìn sáng tạo vào cuộc sống.

Sử dụng thực tế của Veo trong các ngành công nghiệp khác nhau 

Khả năng tạo video tiên tiến của Veo có các ứng dụng thực tế trên nhiều ngành công nghiệp. Trong quảng cáo, nó có thể nhanh chóng sản xuất quảng cáo tùy chỉnh, chất lượng cao cho đối tượng mục tiêu, tiết kiệm thời gian và chi phí sản xuất. Trong giáo dục, Veo có thể tạo ra các video hướng dẫn hấp dẫn, làm cho các khái niệm phức tạp trở nên dễ hiểu hơn. 

Các doanh nghiệp có thể sử dụng Veo để đào tạo và truyền thông doanh nghiệp. Các chuyên gia chăm sóc sức khỏe có thể sử dụng Veo để mô phỏng các thủ tục y tế cho mục đích đào tạo. Về các sự kiện và hội nghị ảo, Veo có thể tạo ra các mô phỏng sống động như thật về các địa điểm và sân khấu, mang đến cho người tham dự trải nghiệm hấp dẫn và tương tác từ mọi nơi. Các nhà tổ chức được hưởng lợi từ phạm vi tiếp cận mở rộng và thông tin chi tiết có giá trị cho các sự kiện trong tương lai. Nhờ có Veo, vô số cơ hội đã mở ra.

Khi một mô hình AI có tiềm năng chạm vào các ngành công nghiệp khác nhau, điều quan trọng là phải ghi nhớ sự an toàn và AI đạo đức. Để cho phép áp dụng rộng rãi hơn và đảm bảo sử dụng có trách nhiệm, Google đã thực hiện một số biện pháp an toàn. Video do Veo tạo được đánh dấu mờ bằng SynthID, một công cụ để tạo hình mờ và xác định nội dung do AI tạo. SynthId đảm bảo tính minh bạch và giúp giảm thiểu rủi ro về quyền riêng tư, bản quyền và thiên vị. Ngoài ra, tất cả các video được tạo đều đi qua các bộ lọc an toàn và quy trình kiểm tra ghi nhớ. Những biện pháp bảo vệ này làm cho Veo trở thành một công cụ có giá trị và đạo đức hỗ trợ sản xuất video có trách nhiệm và sáng tạo.

Truy cập Veo ở đâu

Trong những tuần tới, Google sẽ bắt đầu cung cấp một số tính năng đột phá của Veo để chọn người sáng tạo thông qua VideoFX, một công cụ mới có sẵn tại các phòng thí nghiệm.google. Sáng kiến này cho phép truy cập sớm vào các khả năng tạo video tiên tiến của Veo, mang đến cho người sáng tạo cơ hội thử nghiệm các tính năng sáng tạo của nó. Danh sách chờ cho Veo hiện đang mở, mời những người sáng tạo quan tâm đăng ký và sử dụng các công cụ mạnh mẽ của Veo trong các dự án của họ.

Thông tin thêm về các bản cập nhật AI tạo năm 2024 của DeepMind

Ngoài Veo, DeepMind đã giới thiệu một số cập nhật tiên tiến trong AI tạo ra cho năm 2024. Một trong những cập nhật này là Imagen 3, mô hình chuyển văn bản thành hình ảnh tiên tiến nhất của họ. Imagen 3 vượt trội trong việc tạo ra những hình ảnh chân thực, sống động như thật. Nó hiểu sâu sắc lời nhắc ngôn ngữ tự nhiên và nắm bắt các chi tiết phức tạp trong khi giảm thiểu các hiện vật trực quan.

Hình 7. Hình ảnh được tạo bằng Imagen 3.

DeepMind cũng đã phát triển Lyria, mô hình tiên tiến nhất cho thế hệ âm nhạc AI. Là một phần của nỗ lực này, DeepMind đã tạo ra một bộ công cụ AI âm nhạc được gọi là Music AI Sandbox. Những công cụ này cho phép các nhạc sĩ và nhà sản xuất khám phá những khả năng sáng tạo mới trong sáng tác âm nhạc và chuyển đổi âm thanh.

Hình 8. Một giao diện người dùng ví dụ về các công cụ âm nhạc AI của DeepMind.

Tương tự như Veo, DeepMind cũng đã thực hiện một số biện pháp an toàn liên quan đến các bản cập nhật khác của mình. SynthID sẽ được sử dụng trên các bản cập nhật này như một công cụ để đánh dấu và xác định nội dung do AI tạo ra. Những cập nhật này từ DeepMind hứa hẹn sẽ biến đổi các ngành công nghiệp khác nhau bằng cách cung cấp các công cụ tiên tiến, hiệu quả và có trách nhiệm để tạo nội dung hình ảnh và âm thanh chất lượng cao.

Điều hướng giai đoạn tiếp theo của Generative AI

Những tiến bộ AI thế hệ năm 2024 của DeepMind, bao gồm Veo, Imagen 3 và Lyria, đánh dấu một bước nhảy vọt đáng kể về khả năng AI. Veo biến đổi việc tạo video với khả năng tạo video 1080p chất lượng cao từ các lời nhắc đơn giản, làm cho nó trở thành một công cụ linh hoạt cho các nhà làm phim và người sáng tạo nội dung. Imagen 3 tỏa sáng trong việc tạo ra hình ảnh quang thực, trong khi Lyria giới thiệu những khả năng mới trong thế hệ âm nhạc với các công cụ AI tiên tiến.

Những công nghệ này hứa hẹn sẽ biến đổi các ngành công nghiệp khác nhau bằng cách cung cấp các công cụ hiệu quả và có trách nhiệm để tạo nội dung hình ảnh và âm thanh chất lượng cao. Với các biện pháp an toàn như SynthID đảm bảo sử dụng có đạo đức, DeepMind tiếp tục mở rộng ranh giới của AI, mở đường cho các ứng dụng sáng tạo trong tương lai.

Đi sâu vào AI bằng cách truy cập kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi. Khám phá các trang giải pháp của chúng tôi để tìm hiểu cách AI được áp dụng trong sản xuấtnông nghiệp.

Logo FacebookBiểu trưng TwitterBiểu trưng LinkedInBiểu tượng sao chép liên kết

Đọc thêm trong danh mục này

Hãy xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của machine learning