Глоссарий

Модели диффузии

Узнайте, как диффузионные модели революционизируют генеративный ИИ, создавая реалистичные изображения, видео и данные с непревзойденной детализацией и стабильностью.

Диффузионные модели - это класс генеративных моделей, которые стали краеугольным камнем современного генеративного ИИ. Они предназначены для создания новых данных, таких как изображения или звуки, которые похожи на данные, на которых они были обучены. Основная идея вдохновлена термодинамикой. Модель учится обращать вспять процесс постепенного добавления шума к изображению, пока оно не станет чистым статичным. Обучаясь этому процессу "денуазинга", модель может начать со случайного шума и постепенно превратить его в целостный высококачественный образец. Этот пошаговый процесс доработки - ключ к способности генерировать высокодетализированные и реалистичные результаты.

Как работают модели диффузии?

Процесс, лежащий в основе моделей диффузии, включает в себя два основных этапа:

  1. Прямой процесс (диффузия): На этом этапе четкое изображение систематически ухудшается путем добавления небольшого количества гауссовского шума в течение многих шагов. Это продолжается до тех пор, пока изображение не станет неотличимым от чистого шума. Этот прямой процесс фиксирован и не предполагает никакого обучения; он просто предоставляет модели цель для обучения обратным действиям.
  2. Обратный процесс (денуазирование): Здесь происходит обучение. Нейронная сеть обучается брать зашумленное изображение из прямого процесса и предсказывать шум, который был добавлен на предыдущем этапе. Многократно вычитая этот предсказанный шум, модель может начать с совершенно случайного изображения (чистого шума) и постепенно преобразовать его обратно в чистое, четкое изображение. Этот процесс денуазинга позволяет модели генерировать новые данные с нуля. Основополагающая статья,"Denoising Diffusion Probabilistic Models", заложила большую часть основ этого подхода.

Диффузионные модели в сравнении с другими генеративными моделями

Диффузионные модели существенно отличаются от других популярных генеративных подходов, таких как генеративные адверсарные сети (GAN).

  • Стабильность обучения: Диффузионные модели, как правило, имеют более стабильный процесс обучения по сравнению с GAN. GAN включают в себя сложную состязательную игру между генератором и дискриминатором, которую иногда трудно сбалансировать и которая может не сходиться.
  • Качество и разнообразие образцов: Хотя обе модели могут давать высококачественные результаты, диффузионные модели часто превосходят GAN в создании разнообразных и фотореалистичных изображений, иногда превосходя их по некоторым показателям. Однако это качество может достигаться за счет более высокой задержки вывода.
  • Скорость вывода: традиционно диффузионные модели медленнее генерируют выборки, поскольку требуют много итеративных шагов по размыванию. В отличие от них, GAN могут генерировать выборку за один проход вперед. Однако активные исследования и такие методы, как дистилляция знаний, быстро сокращают этот разрыв в скорости.

Применение в реальном мире

Модели диффузии вызывают новую волну творчества и инноваций в различных областях:

  • Генерация изображений высокой точности: Это наиболее известное применение. Модели, разработанные такими компаниями, как Stability AI и OpenAI, могут создавать потрясающе реалистичные и художественные изображения на основе простых текстовых подсказок. Среди ярких примеров - Stable Diffusion, DALL-E 3, Midjourney и Imagen от Google. Эти инструменты изменили цифровое искусство и создание контента.
  • Редактирование и раскрашивание изображений: Они предназначены не только для создания изображений с нуля. Диффузионные модели могут интеллектуально изменять существующие изображения на основе инструкций, например добавлять или удалять объекты, менять художественные стили или заполнять недостающие части фотографии (инпэйнтинг). Такие инструменты, как Adobe Firefly, используют эти возможности.
  • Синтез аудио и видео: Принципы диффузии применяются и к другим типам данных. Такие модели, как AudioLDM, могут генерировать реалистичную речь, музыку и звуковые эффекты, а такие модели, как Sora от OpenAI, расширяют границы генерации текста в видео.
  • Дополнение данных: В компьютерном зрении диффузионные модели можно использовать для создания синтетических обучающих данных. Это особенно полезно для повышения надежности таких моделей, как Ultralytics YOLO, при решении таких задач, как обнаружение объектов или сегментация изображений, особенно в условиях нехватки реальных данных.

Инструменты и разработка

Для разработки и использования диффузионных моделей обычно используются фреймворки машинного обучения, такие как PyTorch и TensorFlow. Чтобы упростить разработку, такие библиотеки, как библиотека Hugging Face Diffusers, предлагают предварительно обученные модели и инструменты. Хотя эти инструменты сосредоточены на самой генеративной модели, такие платформы, как Ultralytics HUB, могут помочь управлять более широким рабочим процессом, включая управление набором данных и развертывание, дополняя разработку комплексных решений ИИ. По мере распространения таких моделей крайне важно учитывать этические аспекты ИИ и решать такие проблемы, как алгоритмическая предвзятость.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена