Stable Diffusion là một mô hình học sâu nổi bật thuộc thể loại mô hình khuếch tán , được thiết kế riêng cho việc tạo văn bản thành hình ảnh . Được phát hành vào năm 2022 bởi các nhà nghiên cứu và kỹ sư từ CompVis, Stability AI và LAION, nó nhanh chóng trở nên phổ biến do khả năng tạo ra hình ảnh chi tiết, chất lượng cao từ mô tả văn bản và bản chất mã nguồn mở của nó, giúp các khả năng AI tạo ra tiên tiến có thể truy cập rộng rãi. Không giống như nhiều mô hình tạo ra mạnh mẽ khác tại thời điểm đó, Stable Diffusion có thể chạy trên phần cứng cấp tiêu dùng với GPU phù hợp.
Sự khuếch tán ổn định hoạt động như thế nào
Về bản chất, Stable Diffusion sử dụng một quy trình khuếch tán hoạt động trong không gian tiềm ẩn có chiều thấp hơn để đạt hiệu quả tính toán. Quy trình này bao gồm hai giai đoạn chính:
- Khuếch tán về phía trước (Nhiễu): Bắt đầu với một hình ảnh thực, nhiễu Gaussian được thêm dần qua nhiều bước cho đến khi chỉ còn nhiễu ngẫu nhiên. Quá trình này dạy cho mô hình cách nhiễu được phân phối ở các mức khác nhau.
- Reverse Diffusion (Denoising): Để tạo ra một hình ảnh, mô hình bắt đầu với nhiễu ngẫu nhiên trong không gian tiềm ẩn và loại bỏ nhiễu theo từng bước. Quá trình khử nhiễu này được hướng dẫn bởi lời nhắc văn bản đầu vào, được mã hóa và đưa vào mô hình, thường sử dụng các kỹ thuật như CLIP (Tiền huấn luyện hình ảnh ngôn ngữ tương phản) để đảm bảo hình ảnh được tạo ra khớp với mô tả văn bản. Biểu diễn tiềm ẩn khử nhiễu cuối cùng sau đó được giải mã thành hình ảnh có độ phân giải đầy đủ.
Sự tinh chỉnh lặp đi lặp lại này cho phép mô hình tổng hợp các hình ảnh phức tạp và mạch lạc dựa trên nhiều nguồn văn bản đầu vào khác nhau.
Sự khác biệt chính so với GAN
Mặc dù cả Mạng khuếch tán ổn định và Mạng đối nghịch tạo sinh (GAN) đều được sử dụng để tạo hình ảnh, nhưng chúng hoạt động khác nhau:
- Quá trình đào tạo: GAN bao gồm một máy phát và một bộ phân biệt cạnh tranh với nhau, đôi khi có thể dẫn đến đào tạo không ổn định. Các mô hình khuếch tán như Stable Diffusion có quy trình đào tạo ổn định hơn dựa trên việc học cách đảo ngược quy trình nhiễu cố định.
- Quá trình tạo: GAN thường tạo ra hình ảnh trong một lần truyền tiếp duy nhất qua mạng máy phát. Stable Diffusion tạo ra hình ảnh thông qua một quá trình khử nhiễu lặp đi lặp lại qua nhiều bước.
- Chất lượng & tính đa dạng đầu ra: Các mô hình khuếch tán thường xuất sắc trong việc tạo ra các hình ảnh đa dạng và có độ trung thực cao, mặc dù GAN đôi khi có thể nhanh hơn về thời gian suy luận. Đọc thêm về bài báo nghiên cứu Stable Diffusion ban đầu để biết thông tin chi tiết về kỹ thuật.
Ứng dụng trong thế giới thực
Tính linh hoạt của Stable Diffusion cho phép ứng dụng trong nhiều lĩnh vực khác nhau:
- Sáng tạo nghệ thuật và nội dung: Nghệ sĩ, nhà thiết kế và người sáng tạo nội dung sử dụng Stable Diffusion để tạo ra hình ảnh, hình minh họa và nghệ thuật ý tưởng độc đáo từ lời nhắc văn bản, lặp lại nhanh chóng các ý tưởng. Các nền tảng như DreamStudio của Stability AI cung cấp giao diện thân thiện với người dùng.
- Tạo dữ liệu tổng hợp: Có thể được sử dụng để tạo dữ liệu tổng hợp thực tế để đào tạo các mô hình học máy khác, đặc biệt là trong các tác vụ thị giác máy tính , nơi dữ liệu thực tế có thể khan hiếm hoặc đắt tiền để dán nhãn. Điều này có thể bổ sung cho các chiến lược tăng cường dữ liệu .
- Giáo dục và Nghiên cứu: Các nhà nghiên cứu sử dụng nó để nghiên cứu về học sâu , khám phá khả năng và hạn chế của các mô hình tạo sinh và điều tra các vấn đề như sai lệch thuật toán .
- Phương tiện truyền thông được cá nhân hóa: Tạo hình ảnh tùy chỉnh cho bài thuyết trình, phương tiện truyền thông xã hội hoặc giải trí dựa trên yêu cầu cụ thể của người dùng.
Truy cập và sử dụng
Các mô hình khuếch tán ổn định và các công cụ liên quan có sẵn rộng rãi thông qua các nền tảng như Hugging Face , thường sử dụng các thư viện như thư viện Diffusers phổ biến. Bản chất mở của nó khuyến khích phát triển cộng đồng và tinh chỉnh cho các nhiệm vụ hoặc phong cách cụ thể, góp phần vào sự phát triển nhanh chóng của trí tuệ nhân tạo (AI) . Trong khi Ultralytics tập trung chủ yếu vào các mô hình phát hiện đối tượng hiệu quả như Ultralytics YOLO và các công cụ như Ultralytics HUB , việc hiểu các mô hình tạo sinh như Stable Diffusion có vai trò quan trọng trong bối cảnh AI rộng lớn hơn.