Глоссарий

Модели диффузии

Узнай, как диффузионные модели революционизируют генеративный ИИ, создавая реалистичные изображения, видео и данные с непревзойденной детализацией и стабильностью.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Диффузионные модели - это класс генеративных моделей в машинном обучении (ML), которые привлекли к себе большое внимание благодаря своей способности создавать высококачественные и разнообразные образцы, особенно в области компьютерного зрения (CV). Вдохновленные концепциями термодинамики, эти модели работают путем систематического добавления шума к данным (например, к изображению) в "прямом процессе", пока они не станут чистым шумом, а затем учатся обращать этот процесс вспять. Обратный процесс" включает в себя обучение нейронной сети постепенному удалению шума, начиная со случайного шума и итеративно совершенствуя его, пока не будет получен реалистичный образец данных.

Как работают диффузионные модели

Основная идея включает в себя два этапа:

  1. Процесс диффузии вперед: На этом этапе берется исходный образец данных (например, изображение) и постепенно добавляется небольшое количество гауссовского шума в течение многих шагов. Этот процесс продолжается до тех пор, пока исходное изображение не станет неотличимым от случайного шума. Этот этап фиксирован и не предполагает обучения.
  2. Обратный процесс денуазинга: Именно здесь происходит обучение. Модель, обычно представляющая собой сложную нейросетевую архитектуру вроде U-Net, обучается предсказывать шум, добавляемый на каждом шаге прямого процесса. Во время генерации модель начинает с чистого шума и использует свои обученные предсказания для постепенного удаления шума за такое же количество шагов, эффективно обращая вспять диффузию и генерируя новую выборку данных. Такое пошаговое уточнение позволяет создавать высокодетализированные результаты.

Сравнение с другими генеративными моделями

Диффузионные модели значительно отличаются от других популярных генеративных подходов, таких как генеративные адверсарные сети (GAN). В то время как в GAN генератор и дискриминатор конкурируют друг с другом, что часто приводит к нестабильности обучения, диффузионные модели имеют более стабильную динамику обучения. Они часто достигают лучшего разнообразия и качества выборки по сравнению с GAN, хотя обычно требуют большего количества вычислительных шагов при выводе (генерации), что делает их более медленными. В отличие от вариативных автоэнкодеров (VAE), которые обучаются в сжатом латентном пространстве, диффузионные модели работают непосредственно в пространстве данных через процесс шумоподавления и денуазинга. Популярным вариантом является Stable Diffusion, известная своей эффективностью и высококачественными результатами.

Применение диффузионных моделей

Диффузионные модели отлично справляются с задачами, требующими высокой точности генерации:

  • Синтез текста в изображение: Такие модели, как Imagen отGoogle и DALL-E 2 от OpenAI, используют технику диффузии для создания детальных изображений на основе текстовых описаний. Пользователи могут давать подсказки, а модель создает соответствующие визуальные образы.
  • Анализ медицинских изображений: Их можно использовать для таких задач, как создание синтетических медицинских изображений для увеличения обучающих данных, сверхразрешение изображений для повышения качества сканирования или даже обнаружение аномалий путем изучения распределения здоровых тканей. Например, создание реалистичных снимков МРТ или КТ может помочь обучить диагностические модели ИИ, не полагаясь только на ограниченные данные пациентов, дополняя такие задачи, как сегментация изображений для поиска опухолей.
  • Другие области: Исследователи изучают их применение для генерации аудио, создания видео(например, Google Veo), проектирования молекул для открытия лекарств и сжатия данных.

Такие фреймворки, как PyTorch и библиотеки, такие как библиотекаHugging Face Diffusers, предоставляют инструменты и предварительно обученные модели, облегчая разработчикам эксперименты и внедрение диффузионных моделей. Способность генерировать разнообразные и качественные данные делает их мощным инструментом в продолжающейся эволюции генеративного ИИ.

Читать полностью