Глоссарий

Модели диффузии

Узнай, как диффузионные модели революционизируют генеративный ИИ, создавая реалистичные изображения, видео и данные с непревзойденной детализацией и стабильностью.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Диффузионные модели представляют собой мощный класс генеративных моделей в рамках глубокого обучения (ГОО), которые получили широкое распространение, особенно в создании высококачественных изображений, аудио и других сложных типов данных. Вдохновленные концепциями термодинамики, эти модели работают путем систематического добавления шума к данным, а затем учатся обращать этот процесс вспять, чтобы генерировать новые образцы данных из чистого шума. Способность создавать разнообразные и реалистичные результаты сделала их краеугольным камнем современного искусственного интеллекта (ИИ).

Как работают диффузионные модели

Основная идея моделей диффузии включает в себя два процесса: прямой (диффузия) и обратный (денуация).

  1. Форвардный процесс: На этом этапе берутся реальные данные (например, изображение из обучающих данных) и постепенно добавляется небольшое количество случайного шума в течение многих шагов. В конце концов, после достаточного количества шагов исходное изображение становится неотличимым от чистого шума (как помехи на экране старого телевизора). Этот процесс фиксирован и не предполагает обучения.
  2. Обратный процесс: Именно здесь происходит обучение. Модель, обычно представляющая собой нейросетевую архитектуру вроде U-Net, обучается отменять добавление шума шаг за шагом. Начиная со случайного шума, модель итеративно удаляет предсказанный шум, постепенно улучшая выборку, пока она не станет похожа на данные из исходного обучающего распределения. Этот выученный процесс денуазинга позволяет модели генерировать совершенно новые данные. Такие ключевые исследования, как Denoising Diffusion Probabilistic Models (DDPM), во многом заложили основу для современных реализаций.

Обучение заключается в том, чтобы научить модель точно предсказывать шум, который добавлялся на каждом шаге прямого процесса. Обучаясь этому, модель неявно изучает базовую структуру данных.

Ключевые концепции и кондиционирование

В моделях диффузии центральное место занимают несколько концепций:

  • Таймстепы: Постепенное добавление и удаление шума происходит в течение ряда дискретных временных интервалов. Модели часто нужно знать, какой временной интервал она обрабатывает в данный момент.
  • Расписание шума: Это определяет, сколько шума добавляется на каждом этапе прямого процесса. Разные графики могут повлиять на качество тренировок и генерации.
  • Кондиции: Диффузионные модели можно направлять на генерацию определенных результатов. Например, при генерации текста в изображение модель обуславливается текстовыми описаниями (подсказками) для создания соответствующих изображений. При этом часто задействуются такие механизмы, как перекрестное внимание.

Диффузионные модели в сравнении с другими генеративными моделями

Диффузионные модели значительно отличаются от других популярных генеративных подходов, таких как генеративные адверсарные сети (GAN):

  • Стабильность обучения: Диффузионные модели обычно обеспечивают более стабильное обучение по сравнению с GAN, которые включают в себя сложную состязательную игру между генератором и дискриминатором, которая иногда может не сходиться.
  • Качество и разнообразие выборки: Диффузионные модели часто демонстрируют высокую точность и разнообразие выборок, иногда превосходя GAN в определенных бенчмарках, хотя зачастую ценой более высокой задержки вывода.
  • Скорость вывода: традиционно создание выборки с помощью диффузионной модели требует множества шагов деноизации, что делает вывод более медленным, чем у GAN. Однако исследования в области более быстрых методов выборки быстро сокращают этот разрыв. Также изучаются такие техники, как дистилляция знаний.

Применение в реальном мире

Модели диффузии являются движущей силой инноваций в различных сферах:

  • Генерация изображений с высокой точностью: Такие модели, как Stable Diffusion, Midjourney и Imagen от Google, используют технику диффузии для создания потрясающе реалистичных и художественных изображений на основе текстовых подсказок.
  • Редактирование и раскрашивание изображений: Они могут интеллектуально заполнять недостающие части изображений (inpainting) или изменять существующие изображения на основе инструкций (например, менять стили, добавлять объекты), что позволяет использовать мощные творческие инструменты вроде Adobe Firefly.
  • Синтез аудио: Диффузионные модели используются для генерации реалистичной речи, музыки и звуковых эффектов, что можно наблюдать в таких проектах, как AudioLDM.
  • Научные открытия: Появляются приложения в таких областях, как открытие лекарств для создания новых молекулярных структур и в физике для моделирования сложных систем.
  • Дополнение данных: Генерирование синтетических данных с помощью диффузионных моделей может дополнить реальные обучающие данные для таких задач, как обнаружение объектов или сегментация изображений, потенциально повышая надежность таких моделей, как Ultralytics YOLO.

Инструменты и разработка

При разработке и использовании моделей диффузии часто используются такие фреймворки, как PyTorch и TensorFlow. Такие библиотеки, как библиотекаHugging Face Diffusers, предоставляют предварительно обученные модели и инструменты для упрощения работы с диффузионными моделями. Платформы вроде Ultralytics HUB оптимизируют более широкий рабочий процесс компьютерного зрения, включая управление наборами данных и развертывание моделей, что может дополнить генеративные рабочие процессы.

Читать полностью