Thuật ngữ

Mô hình khuếch tán

Khám phá cách các mô hình khuếch tán cách mạng hóa AI tạo ra hình ảnh, video và dữ liệu chân thực với độ chi tiết và độ ổn định vô song.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Mô hình khuếch tán là một lớp mô hình tạo sinh trong học máy (ML) đã thu hút được sự chú ý đáng kể vì khả năng tạo ra các mẫu đa dạng, chất lượng cao, đặc biệt là trong lĩnh vực thị giác máy tính (CV) . Lấy cảm hứng từ các khái niệm trong nhiệt động lực học, các mô hình này hoạt động bằng cách thêm nhiễu một cách có hệ thống vào dữ liệu (như hình ảnh) trong một "quy trình chuyển tiếp" cho đến khi nó trở thành nhiễu thuần túy, sau đó học cách đảo ngược quy trình này. "Quy trình đảo ngược" bao gồm việc đào tạo một mạng nơ-ron để loại bỏ nhiễu dần dần, bắt đầu từ nhiễu ngẫu nhiên và tinh chỉnh lặp đi lặp lại cho đến khi tạo ra được mẫu dữ liệu thực tế.

Mô hình khuếch tán hoạt động như thế nào

Ý tưởng cốt lõi bao gồm hai giai đoạn:

  1. Tiến trình khuếch tán về phía trước: Giai đoạn này lấy một mẫu dữ liệu gốc (ví dụ: hình ảnh) và dần dần thêm một lượng nhỏ nhiễu Gaussian qua nhiều bước. Quá trình này tiếp tục cho đến khi hình ảnh gốc không thể phân biệt được với nhiễu ngẫu nhiên. Giai đoạn này là cố định và không liên quan đến việc học.
  2. Quá trình khử nhiễu ngược: Đây là nơi diễn ra quá trình học. Một mô hình, thường là một kiến trúc mạng nơ-ron phức tạp như U-Net , được đào tạo để dự đoán tiếng ồn được thêm vào ở mỗi bước của quá trình chuyển tiếp. Trong quá trình tạo, mô hình bắt đầu với tiếng ồn thuần túy và sử dụng các dự đoán đã học của mình để loại bỏ tiếng ồn theo từng bước, đảo ngược hiệu quả quá trình khuếch tán và tạo ra một mẫu dữ liệu mới. Quá trình tinh chỉnh từng bước này cho phép tạo ra các đầu ra có độ chi tiết cao.

So sánh với các mô hình sinh sản khác

Các mô hình khuếch tán khác đáng kể so với các phương pháp sinh phổ biến khác như Mạng đối nghịch sinh (GAN) . Trong khi GAN bao gồm một bộ tạo và một bộ phân biệt cạnh tranh với nhau, thường dẫn đến sự không ổn định trong quá trình đào tạo, các mô hình khuếch tán có xu hướng có động lực đào tạo ổn định hơn. Chúng thường đạt được sự đa dạng và chất lượng mẫu tốt hơn so với GAN, mặc dù chúng thường yêu cầu nhiều bước tính toán hơn trong quá trình suy luận (sinh), khiến chúng chậm hơn. Không giống như Bộ mã hóa tự động biến thiên (VAE), học một không gian tiềm ẩn được nén, các mô hình khuếch tán hoạt động trực tiếp trong không gian dữ liệu thông qua quá trình nhiễu và khử nhiễu. Một biến thể phổ biến là Khuếch tán ổn định , được biết đến với hiệu quả và đầu ra chất lượng cao.

Ứng dụng của mô hình khuếch tán

Các mô hình khuếch tán hoạt động hiệu quả trong các nhiệm vụ đòi hỏi độ trung thực cao:

  • Tổng hợp văn bản thành hình ảnh : Các mô hình như Imagen của Google và DALL-E 2 của OpenAI sử dụng các kỹ thuật khuếch tán để tạo ra hình ảnh chi tiết dựa trên mô tả văn bản. Người dùng có thể cung cấp lời nhắc và mô hình tạo ra hình ảnh tương ứng.
  • Phân tích hình ảnh y tế : Chúng có thể được sử dụng cho các nhiệm vụ như tạo hình ảnh y tế tổng hợp để đào tạo tăng cường dữ liệu, siêu phân giải hình ảnh để nâng cao chất lượng quét hoặc thậm chí phát hiện bất thường bằng cách tìm hiểu sự phân bố của mô khỏe mạnh. Ví dụ, tạo ra các bản quét MRI hoặc CT thực tế có thể giúp đào tạo các mô hình AI chẩn đoán mà không chỉ dựa vào dữ liệu bệnh nhân hạn chế, bổ sung cho các nhiệm vụ như phân đoạn hình ảnh cho khối u.
  • Các lĩnh vực khác: Nghiên cứu đang khám phá việc sử dụng chúng trong việc tạo ra âm thanh, tạo ra video ( như Google Veo ), thiết kế phân tử để khám phá thuốc và nén dữ liệu.

Các khuôn khổ như PyTorch và các thư viện như thư viện Hugging Face Diffusers cung cấp các công cụ và mô hình được đào tạo trước, giúp các nhà phát triển dễ dàng thử nghiệm và triển khai các mô hình khuếch tán hơn. Khả năng tạo ra dữ liệu đa dạng và chất lượng cao của chúng khiến chúng trở thành một công cụ mạnh mẽ trong quá trình phát triển liên tục của AI tạo sinh .

Đọc tất cả