Thuật ngữ

Mô hình khuếch tán

Khám phá cách các mô hình khuếch tán cách mạng hóa AI tạo ra hình ảnh, video và dữ liệu chân thực với độ chi tiết và độ ổn định vô song.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Mô hình khuếch tán là một lớp mô hình AI tạo ra đã thu hút được sự chú ý đáng kể vì khả năng tạo ra hình ảnh, video và các dạng dữ liệu khác chất lượng cao. Không giống như các mô hình tạo ra truyền thống, chẳng hạn như Mạng đối nghịch tạo ra (GAN) , học cách tạo dữ liệu trong một bước duy nhất, các mô hình khuếch tán hoạt động thông qua một quá trình lặp đi lặp lại của việc thêm nhiễu vào dữ liệu và sau đó học cách đảo ngược quá trình này. Cách tiếp cận này cho phép chúng tạo ra các đầu ra có độ chi tiết cao và chân thực, khiến chúng trở thành một công cụ mạnh mẽ trong nhiều ứng dụng sáng tạo và khoa học.

Mô hình khuếch tán hoạt động như thế nào

Các mô hình khuếch tán hoạt động dựa trên quy trình hai pha: quy trình khuếch tán thuận và quy trình khuếch tán ngược. Trong quy trình thuận, nhiễu Gaussian được thêm dần vào dữ liệu đào tạo qua một loạt các bước cho đến khi dữ liệu trở thành nhiễu thuần túy. Về cơ bản, giai đoạn này phá hủy cấu trúc trong dữ liệu. Quy trình ngược là nơi mô hình học cách khử nhiễu dữ liệu, loại bỏ nhiễu theo từng bước để tái tạo dữ liệu gốc. Bằng cách đào tạo mạng nơ-ron để dự đoán nhiễu được thêm vào ở mỗi bước, mô hình học cách tạo các mẫu dữ liệu mới gần giống với dữ liệu đào tạo. Quy trình khử nhiễu theo từng bước này cho phép các mô hình khuếch tán nắm bắt các mẫu phức tạp và tạo ra đầu ra có độ trung thực cao.

Các khái niệm chính trong mô hình khuếch tán

Một số khái niệm quan trọng hỗ trợ chức năng của các mô hình khuếch tán. Một khái niệm chính là chuỗi Markov, đây là một chuỗi các sự kiện trong đó xác suất của mỗi sự kiện chỉ phụ thuộc vào trạng thái đạt được trong sự kiện trước đó. Trong bối cảnh của các mô hình khuếch tán, mỗi bước thêm hoặc loại bỏ nhiễu là một trạng thái trong chuỗi Markov. Một khái niệm quan trọng khác là việc sử dụng mạng nơ-ron để ước tính nhiễu ở mỗi bước. Các mạng này được đào tạo để dự đoán nhiễu được thêm vào trong quá trình chuyển tiếp, cho phép mô hình đảo ngược quá trình và tạo dữ liệu mới. Quá trình đào tạo bao gồm việc tối ưu hóa mạng nơ-ron để giảm thiểu sự khác biệt giữa nhiễu dự đoán và nhiễu thực tế được thêm vào.

Ứng dụng của mô hình khuếch tán

Các mô hình khuếch tán đã chứng minh được khả năng đáng chú ý trong nhiều ứng dụng. Một ứng dụng nổi bật là trong việc tạo hình ảnh , trong đó các mô hình khuếch tán có thể tạo ra các hình ảnh cực kỳ chân thực và chi tiết từ các mô tả văn bản hoặc các dạng dữ liệu đầu vào khác. Ví dụ, các mô hình như DALL-E 2 và Stable Diffusion đã chứng minh được khả năng tạo ra các hình ảnh chân thực gần giống với các lời nhắc văn bản.

Một ứng dụng quan trọng khác là trong việc tạo video , nơi các mô hình khuếch tán có thể tạo ra các chuỗi video mạch lạc và chất lượng cao. Khả năng này có ý nghĩa đối với các lĩnh vực như làm phim, hoạt hình và sáng tạo nội dung, cung cấp các công cụ mới để thể hiện sự sáng tạo.

Ngoài việc tạo ra phương tiện, các mô hình khuếch tán cũng được sử dụng trong nghiên cứu khoa học, đặc biệt là trong các lĩnh vực như khám phá thuốc và khoa học vật liệu. Ví dụ, chúng có thể được sử dụng để tạo ra các cấu trúc phân tử mới có các đặc tính mong muốn, đẩy nhanh quá trình phát triển các loại thuốc và vật liệu mới.

Mô hình khuếch tán so với các mô hình sinh sản khác

Trong khi các mô hình khuếch tán có điểm tương đồng với các mô hình sinh khác, chúng có những đặc điểm riêng biệt khiến chúng trở nên khác biệt. So với GAN , tạo dữ liệu trong một lần chạy qua mạng máy phát, các mô hình khuếch tán sử dụng quy trình lặp cho phép đào tạo ổn định hơn và đầu ra chất lượng cao hơn. GAN được biết đến với tính không ổn định trong đào tạo và thách thức trong việc cân bằng mạng máy phát và mạng phân biệt. Ngược lại, các mô hình khuếch tán tránh được những vấn đề này bằng cách chuyển đổi dữ liệu dần dần thông qua một loạt các bước.

Một lớp mô hình liên quan khác là bộ mã hóa tự động biến thiên (VAE) , học cách biểu diễn dữ liệu tiềm ẩn và sau đó tạo dữ liệu mới bằng cách lấy mẫu từ không gian tiềm ẩn này. Mặc dù VAE có hiệu quả, nhưng chúng thường tạo ra đầu ra mờ hoặc ít chi tiết hơn so với các mô hình khuếch tán. Quá trình khử nhiễu lặp đi lặp lại của các mô hình khuếch tán cho phép chúng nắm bắt các chi tiết tốt hơn và tạo ra dữ liệu thực tế hơn.

Ví dụ thực tế

Tạo hình ảnh : Một trong những ứng dụng nổi tiếng nhất của mô hình khuếch tán là trong việc tạo hình ảnh. Ví dụ, Stable Diffusion là một mô hình nguồn mở có thể tạo ra hình ảnh có độ chi tiết cao từ lời nhắc văn bản. Người dùng có thể nhập mô tả, chẳng hạn như "một con mèo đội mũ" và mô hình sẽ tạo ra hình ảnh tương ứng. Công nghệ này đã được sử dụng để tạo tác phẩm nghệ thuật, thiết kế nguyên mẫu và nâng cao quy trình làm việc sáng tạo.

Khám phá thuốc : Trong lĩnh vực khám phá thuốc, các mô hình khuếch tán được sử dụng để tạo ra các cấu trúc phân tử mới. Ví dụ, các nhà nghiên cứu đã sử dụng các mô hình khuếch tán để thiết kế các phân tử mới có các đặc tính cụ thể, chẳng hạn như ái lực liên kết với protein mục tiêu. Ứng dụng này có thể tăng tốc đáng kể quá trình xác định các ứng viên thuốc tiềm năng, giảm thời gian và chi phí liên quan đến các phương pháp phát triển thuốc truyền thống.

Kết thúc

Các mô hình khuếch tán đại diện cho một bước tiến đáng kể trong lĩnh vực AI tạo sinh, cung cấp các khả năng mạnh mẽ để tạo dữ liệu chất lượng cao trên nhiều miền khác nhau. Cách tiếp cận lặp đi lặp lại của chúng để tạo dữ liệu cho phép tính ổn định và chi tiết cao hơn so với các mô hình tạo sinh khác. Khi nghiên cứu trong lĩnh vực này tiếp tục phát triển, các mô hình khuếch tán được định vị để đóng vai trò ngày càng quan trọng trong cả các ứng dụng sáng tạo và khoa học, thúc đẩy sự đổi mới và tạo ra các khả năng mới trong AI và học máy (ML) . Đối với những người quan tâm đến việc khám phá công nghệ AI tiên tiến, việc hiểu các mô hình khuếch tán là điều cần thiết. Hãy xem hướng dẫn toàn diện của chúng tôi để tìm hiểu sâu hơn về cách các mô hình này được sử dụng để tạo nội dung thực tế. Bạn cũng có thể khám phá Ultralytics blog để biết thêm thông tin chi tiết về những tiến bộ mới nhất trong AI và thị giác máy tính.

Liên kết ngoài:

Đọc tất cả