Khám phá Stable Diffusion, một mô hình AI tiên tiến giúp tạo ra hình ảnh chân thực từ lời nhắc văn bản, mang đến cuộc cách mạng về khả năng sáng tạo và hiệu quả.
Stable Diffusion là một mô hình học sâu (DL) nổi bật thuộc danh mục các mô hình khuếch tán , được thiết kế riêng cho việc tạo văn bản thành hình ảnh . Được phát hành vào năm 2022 bởi các nhà nghiên cứu và kỹ sư từ CompVis , Stability AI và LAION , mô hình này nhanh chóng trở nên phổ biến do khả năng tạo ra hình ảnh chi tiết, chất lượng cao từ các mô tả văn bản. Bản chất mã nguồn mở của mô hình này giúp các khả năng AI tạo sinh tiên tiến có thể tiếp cận rộng rãi. Không giống như nhiều mô hình tạo sinh mạnh mẽ khác vào thời điểm đó, Stable Diffusion có thể chạy trên phần cứng cấp độ người tiêu dùng với GPU (Bộ xử lý đồ họa) phù hợp.
Về bản chất, Stable Diffusion sử dụng một quy trình khuếch tán. Quy trình này bắt đầu với một mẫu nhiễu ngẫu nhiên và dần dần tinh chỉnh nó, từng bước một, loại bỏ nhiễu theo hướng dẫn được cung cấp bởi lời nhắc văn bản. Để làm cho quy trình này hiệu quả về mặt tính toán, phần lớn quy trình hoạt động trong không gian tiềm ẩn có chiều thấp hơn, thay vì trực tiếp trên dữ liệu pixel có độ phân giải cao. Lời nhắc văn bản được diễn giải bằng bộ mã hóa văn bản, thường dựa trên các mô hình như CLIP (Tiền huấn luyện hình ảnh ngôn ngữ tương phản) , dịch các từ thành biểu diễn mà quy trình tạo hình ảnh có thể hiểu được. Sự tinh chỉnh lặp đi lặp lại này cho phép mô hình tổng hợp các hình ảnh phức tạp và mạch lạc dựa trên các đầu vào văn bản đa dạng, như được trình bày chi tiết trong bài báo nghiên cứu Stable Diffusion ban đầu .
Mặc dù cả Mạng khuếch tán ổn định và Mạng đối nghịch tạo sinh (GAN) đều được sử dụng để tạo hình ảnh, nhưng chúng hoạt động khác nhau:
Tính linh hoạt của Stable Diffusion cho phép ứng dụng trong nhiều lĩnh vực khác nhau:
Các mô hình khuếch tán ổn định và các công cụ liên quan có sẵn rộng rãi thông qua các nền tảng như Hugging Face , thường sử dụng các thư viện như thư viện Diffusers phổ biến trong các khuôn khổ như PyTorch hoặc TensorFlow . Bản chất mở của nó khuyến khích phát triển cộng đồng và tinh chỉnh cho các nhiệm vụ hoặc phong cách cụ thể, góp phần vào sự phát triển nhanh chóng của trí tuệ nhân tạo (AI) . Trong khi Ultralytics tập trung chủ yếu vào các mô hình phát hiện đối tượng hiệu quả ( YOLOv8 , YOLOv10 , YOLO11 ) và các công cụ như Ultralytics HUB để hợp lý hóa MLOps , việc hiểu các mô hình tạo sinh như Stable Diffusion là rất quan trọng trong bối cảnh AI rộng lớn hơn.
Sức mạnh của các mô hình sinh sản như Stable Diffusion cũng mang đến những thách thức về mặt đạo đức. Những mối quan ngại bao gồm khả năng tạo ra deepfake thuyết phục, tạo ra nội dung rõ ràng không có sự đồng thuận hoặc duy trì sự thiên vị của xã hội hiện diện trong dữ liệu đào tạo, dẫn đến sự thiên vị của thuật toán . Việc phát triển và triển khai các công nghệ này đòi hỏi phải cân nhắc cẩn thận về đạo đức AI và thực hiện các biện pháp bảo vệ cho các hoạt động AI có trách nhiệm .