Google DeepMind Veo: Trình tạo video AI mới

Trong bài thuyết trình I/O 2024 của Google vào ngày 14 tháng 5, họ đã chia sẻ những cập nhật mới nhất từ DeepMind, bộ phận AI của họ. Một trong những tiến bộ thú vị nhất được chia sẻ là mô hình video tạo hình mới nhất của họ, Veo. Veo có thể tạo video 1080P chất lượng cao dựa trên lời nhắc văn bản, hình ảnh và video. Nó thậm chí còn cho phép bạn chỉnh sửa video đã tạo bằng các lời nhắc tiếp theo. Veo đưa AI tạo hình lên một tầm cao mới. Hãy cùng tìm hiểu kỹ hơn về các tính năng mà Veo cung cấp.

Tìm hiểu về khả năng của Veo

Veo là một mô hình video tổng quát sử dụng sự hiểu biết sâu sắc về ngôn ngữ và hình ảnh để tạo ra các video phù hợp chặt chẽ với tầm nhìn sáng tạo của người dùng. Nó có thể nắm bắt chính xác tông màu và chi tiết của các lệnh dài hơn, khiến nó trở thành một công cụ mạnh mẽ cho những người sáng tạo muốn biến ý tưởng của họ thành nội dung video chính xác.

Người dùng có thể có quyền kiểm soát sáng tạo đột phá đối với video được tạo vì Veo có thể hiểu các kỹ thuật quay phim như "timelapse" và "cảnh quay trên không về phong cảnh." Quyền kiểm soát sáng tạo này giúp người dùng có thể tạo video nơi người, động vật và đồ vật di chuyển tự nhiên. Các video do Veo tạo ra rất hấp dẫn và trực quan vì rất khó để nhận ra rằng chúng được tạo bởi một mô hình AI.

Veo không chỉ tạo video từ các lệnh. Nếu bạn cung cấp một video đã tạo trước đó và một yêu cầu chỉnh sửa cụ thể, chẳng hạn như chèn thuyền kayak vào cảnh quay trên không của bờ biển, Veo có thể tích hợp liền mạch thay đổi này vào video gốc, tạo ra một phiên bản cập nhật.

Hình 1. Một ví dụ về chỉnh sửa video bằng Veo.

Dưới đây là một số tính năng khác mà Veo cung cấp:

Chỉnh sửa có mặt nạ: Veo có thể giúp bạn chỉnh sửa các khu vực được xác định của video.
‍
Tạo video lấy cảm hứng từ hình ảnh: Sử dụng hình ảnh và lời nhắc bằng văn bản, Veo có thể tạo video phản ánh phong cách của hình ảnh và tuân theo hướng dẫn của lời nhắc.
‍
Đoạn video mở rộng: Veo có thể tạo và mở rộng các đoạn video lên đến 60 giây trở lên, từ một lời nhắc duy nhất hoặc một chuỗi các lời nhắc kể một câu chuyện.

Các video tuyệt đẹp mà Veo đã tạo

Hãy cùng xem qua một số video mà Veo đã tạo và lý do tại sao nó lại ngoạn mục đến vậy.

Tạo một video tua nhanh thời gian từ một lời nhắc văn bản ngắn là một thách thức. Thông thường, lời nhắc văn bản ngắn không thể truyền tải chính xác những thay đổi và chuyển động trong cảnh quay tua nhanh thời gian. Vì vậy, thật đáng kinh ngạc khi Veo có thể hiểu những gì mong đợi từ một cảnh tua nhanh thời gian mà không cần đi vào chi tiết.

Hình 2. Một khung hình từ video tua nhanh thời gian do Veo tạo.

‍

Tương tự, tạo video với vật lý chính xác không phải là điều dễ dàng. Mô hình AI cần hiểu và mô phỏng các định luật vật lý như trọng lực, động lượng và va chạm để làm cho các chuyển động và tương tác trông chân thực. Thật ấn tượng khi Veo có thể mô hình hóa chính xác các động lực này mà không cần hướng dẫn chi tiết từ các lời nhắc văn bản.

Hình 3. Một khung hình từ video được tạo bằng Veo thể hiện chính xác vật lý chuyển động của sứa.

‍

Cho đến nay, chúng ta chỉ thấy những video ngắn hơn được tạo ra bởi AI do hạn chế về mặt tính toán và sự phức tạp của việc duy trì tính mạch lạc trên các chuỗi dài hơn. Tại Google Bài thuyết trình I/O năm 2024 của Veo đã cho thấy khả năng đáng kinh ngạc của Veo trong việc tạo ra những video dài hơn và phức tạp hơn.

Hình 4. Các khung hình từ video Veo dài hơn được hiển thị tại Google Bài thuyết trình I/O năm 2024.

‍

Veo hoạt động như thế nào?

Giống như nhiều mô hình AI khác, Veo được xây dựng dựa trên nền tảng của những người khổng lồ. Nó kế thừa những tiến bộ trước đó như Mạng Truy vấn Tạo sinh (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet và Lumiere, cũng như Google Kiến trúc Transformer độc quyền của Veo và Gemini. Ngoài ra, để cải thiện khả năng diễn giải chính xác các lời nhắc của Veo, phụ đề của mỗi video trong tập dữ liệu đào tạo đã được chi tiết hơn.

Dựa trên quy trình làm việc mô hình thô được chia sẻ bởi Google , đây là cách Veo hoạt động:

Lời nhắc đầu vào: Bạn cung cấp một lời nhắc bằng văn bản và, tùy chọn, một lời nhắc bằng hình ảnh.
‍
Mã hóa: Lời nhắc bằng văn bản được xử lý bởi UL2 Encoder và lời nhắc bằng hình ảnh được xử lý bởi bộ mã hóa hình ảnh.
‍
Embedded Prompt (Nhúng Prompt): Đầu ra từ bộ mã hóa văn bản và hình ảnh được kết hợp để tạo thành một embedded prompt duy nhất.
‍
Latent Diffusion Model (Mô hình khuếch tán tiềm ẩn): Embedded prompt và một video nén nhiễu được chuyển đến mô hình này, mô hình này sẽ tạo ra một video nén bằng cách sử dụng chúng. Veo sử dụng các biểu diễn video nén chất lượng cao, được gọi là latents (dữ liệu ẩn), để cải thiện hiệu quả đồng thời duy trì chất lượng.
‍
Decoding (Giải mã): Bước cuối cùng là giải mã video đầu ra 1080p từ video nén.

‍

Một case study (nghiên cứu điển hình) hấp dẫn trong lĩnh vực làm phim

Để kiểm tra khả năng của Veo, Google đã hợp tác với nhà làm phim Donald Glover và studio sáng tạo Gilga của ông. Họ đã sử dụng Veo để khám phá nhiều kỹ thuật sáng tạo khác nhau, bao gồm các cảnh quay theo dõi động, đòi hỏi chuyển động chính xác và khung hình nhất quán.

Hình 6. Sử dụng Veo trong quy trình làm phim.

‍

Theo truyền thống, các nhà làm phim phải đối mặt với những hạn chế do thời gian và nguồn lực hạn hẹp. Với Veo, Glover và nhóm của anh ấy có thể nhanh chóng thử nghiệm và tạo ra các cảnh quay phức tạp, từ đó mang lại sự linh hoạt và đổi mới hơn trong quá trình làm phim.

Với Veo, Glover và nhóm của anh ấy có thể nhanh chóng thử nghiệm và tạo ra các cảnh quay phức tạp trước khi quay phim thực tế. Ví dụ: họ có thể thử nghiệm các dynamic tracking shot khác nhau để xem chúng sẽ trông như thế nào và thực hiện các điều chỉnh khi cần thiết. Quá trình tiền hình dung này đã giúp họ tinh chỉnh ý tưởng và đảm bảo rằng các cảnh quay sẽ hoạt động như dự định, cuối cùng giảm số lượng cảnh quay cần thiết trong quá trình quay phim thực tế. Họ đã có thể tạo ra một case study hấp dẫn để chứng minh tiềm năng của Veo trong việc thay đổi ngành công nghiệp điện ảnh. Nó cung cấp một cách nhanh hơn và hiệu quả hơn để biến những ý tưởng sáng tạo thành hiện thực.

Các ứng dụng thực tế của Veo trong các ngành công nghiệp khác nhau

Các khả năng tạo video tiên tiến của Veo có ứng dụng thực tế trong nhiều ngành công nghiệp. Trong quảng cáo, nó có thể nhanh chóng tạo ra các quảng cáo chất lượng cao, được tùy chỉnh cho các đối tượng mục tiêu, giúp tiết kiệm thời gian và chi phí sản xuất. Trong giáo dục, Veo có thể tạo ra các video hướng dẫn hấp dẫn, giúp các khái niệm phức tạp trở nên dễ hiểu hơn.

Các doanh nghiệp có thể sử dụng Veo cho đào tạo và truyền thông nội bộ. Các chuyên gia chăm sóc sức khỏe có thể sử dụng Veo để mô phỏng các quy trình y tế cho mục đích đào tạo. Đối với các sự kiện và hội nghị ảo, Veo có thể tạo ra các mô phỏng sống động như thật về địa điểm và sân khấu, mang đến cho người tham dự trải nghiệm hấp dẫn và tương tác từ mọi nơi. Các nhà tổ chức được hưởng lợi từ việc mở rộng phạm vi tiếp cận và những hiểu biết có giá trị cho các sự kiện trong tương lai. Nhờ Veo, vô số cơ hội đã mở ra.

Khi một mô hình AI có tiềm năng ứng dụng vào nhiều ngành công nghiệp khác nhau, điều quan trọng là phải lưu ý đến tính an toàn và đạo đức của AI. Để cho phép áp dụng rộng rãi hơn và đảm bảo sử dụng có trách nhiệm, Google đã triển khai một số biện pháp an toàn. Video do Veo tạo ra được đóng dấu bản quyền bằng SynthID, một công cụ đóng dấu bản quyền và nhận dạng nội dung do AI tạo ra. SynthID đảm bảo tính minh bạch và giúp giảm thiểu rủi ro về quyền riêng tư, bản quyền và định kiến. Ngoài ra, tất cả video được tạo ra đều phải trải qua các bộ lọc an toàn và quy trình kiểm tra ghi nhớ. Những biện pháp bảo vệ này khiến Veo trở thành một công cụ giá trị và đạo đức, hỗ trợ sản xuất video có trách nhiệm và sáng tạo.

Truy cập Veo ở đâu

Trong những tuần tới, Google sẽ bắt đầu cung cấp một số tính năng đột phá của Veo cho những người sáng tạo được chọn thông qua VideoFX, một công cụ mới có tại phòng thí nghiệm. google Sáng kiến này cho phép truy cập sớm vào các tính năng tạo video tiên tiến của Veo, mang đến cho các nhà sáng tạo cơ hội trải nghiệm những tính năng đột phá. Danh sách chờ Veo hiện đang mở, mời các nhà sáng tạo quan tâm đăng ký và sử dụng các công cụ mạnh mẽ của Veo trong các dự án của họ.

Thông tin thêm về các bản cập nhật AI tạo sinh năm 2024 của DeepMind

Bên cạnh Veo, DeepMind đã giới thiệu một số bản cập nhật tiên tiến trong AI tạo sinh cho năm 2024. Một trong những bản cập nhật này là Imagen 3, mô hình chuyển văn bản thành hình ảnh tiên tiến nhất của họ cho đến nay. Imagen 3 vượt trội trong việc tạo ra những hình ảnh sống động như thật. Nó hiểu sâu sắc các lời nhắc bằng ngôn ngữ tự nhiên và nắm bắt các chi tiết phức tạp đồng thời giảm thiểu các hiện vật trực quan.

Hình 7. Một hình ảnh được tạo bằng Imagen 3.

‍

DeepMind cũng đã phát triển Lyria, mô hình tiên tiến nhất của họ để tạo nhạc bằng AI. Là một phần của nỗ lực này, DeepMind đã tạo ra một bộ công cụ AI âm nhạc có tên là Music AI Sandbox. Các công cụ này cho phép các nhạc sĩ và nhà sản xuất khám phá những khả năng sáng tạo mới trong sáng tác nhạc và chuyển đổi âm thanh.

Hình 8. Một ví dụ về giao diện người dùng của các công cụ AI âm nhạc của DeepMind.

‍

Tương tự như Veo, DeepMind cũng đã triển khai một số biện pháp an toàn liên quan đến các bản cập nhật khác của mình. SynthID sẽ được sử dụng trên các bản cập nhật này như một công cụ để đánh dấu bản quyền và xác định nội dung do AI tạo. Những bản cập nhật này từ DeepMind hứa hẹn sẽ chuyển đổi nhiều ngành công nghiệp khác nhau bằng cách cung cấp các công cụ tiên tiến, hiệu quả và có trách nhiệm để tạo ra nội dung hình ảnh và âm thanh chất lượng cao.

Điều hướng giai đoạn tiếp theo của AI tạo sinh

Những tiến bộ về AI tạo sinh năm 2024 của DeepMind, bao gồm Veo, Imagen 3 và Lyria, đánh dấu một bước nhảy đáng kể về khả năng của AI. Veo chuyển đổi việc tạo video với khả năng tạo video 1080p chất lượng cao từ các lời nhắc đơn giản, khiến nó trở thành một công cụ linh hoạt cho các nhà làm phim và người sáng tạo nội dung. Imagen 3 tỏa sáng trong việc tạo ra những hình ảnh sống động như thật, trong khi Lyria giới thiệu những khả năng mới trong tạo nhạc với các công cụ AI tiên tiến.

Những công nghệ này hứa hẹn sẽ thay đổi nhiều ngành công nghiệp bằng cách cung cấp các công cụ hiệu quả và có trách nhiệm để tạo ra nội dung hình ảnh và âm thanh chất lượng cao. Với các biện pháp an toàn như SynthID đảm bảo sử dụng có đạo đức, DeepMind tiếp tục mở rộng ranh giới của AI, mở đường cho các ứng dụng sáng tạo trong tương lai.

Khám phá AI bằng cách truy cập kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi. Tìm hiểu cách AI được ứng dụng trong sản xuất và nông nghiệp tại trang giải pháp của chúng tôi.

Tạo video với Google Veo của DeepMind

Tìm hiểu về khả năng của Veo

Các video tuyệt đẹp mà Veo đã tạo

Veo hoạt động như thế nào?

Một case study (nghiên cứu điển hình) hấp dẫn trong lĩnh vực làm phim

Các ứng dụng thực tế của Veo trong các ngành công nghiệp khác nhau

Truy cập Veo ở đâu

Thông tin thêm về các bản cập nhật AI tạo sinh năm 2024 của DeepMind

Điều hướng giai đoạn tiếp theo của AI tạo sinh

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Công cụ AI thị giác cho chẩn đoán y tế

Từ dữ liệu đến quyết định: Sử dụng trí tuệ nhân tạo thị giác cho chiến lược doanh nghiệp

Hãy cùng nhau xây dựng tương lai
của AI!

Tạo video với Google Veo của DeepMind

Tìm hiểu về khả năng của Veo

Các video tuyệt đẹp mà Veo đã tạo

Veo hoạt động như thế nào?

Một case study (nghiên cứu điển hình) hấp dẫn trong lĩnh vực làm phim

Các ứng dụng thực tế của Veo trong các ngành công nghiệp khác nhau

Truy cập Veo ở đâu

Thông tin thêm về các bản cập nhật AI tạo sinh năm 2024 của DeepMind

Điều hướng giai đoạn tiếp theo của AI tạo sinh

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Công cụ AI thị giác cho chẩn đoán y tế

Từ dữ liệu đến quyết định: Sử dụng trí tuệ nhân tạo thị giác cho chiến lược doanh nghiệp

Hãy cùng nhau xây dựng tương lai của AI!

Hãy cùng nhau xây dựng tương lai
của AI!