Глоссарий

Генеративный ИИ

Узнайте, как генеративный ИИ создает оригинальный контент в виде текста, изображений и аудио, преобразуя отрасли с помощью инновационных приложений.

Генеративный ИИ - это категория систем искусственного интеллекта (ИИ), которые могут создавать новый и оригинальный контент, включая текст, изображения, аудио и видео. В отличие от традиционного ИИ, который анализирует или действует на основе имеющихся данных, генеративные модели изучают базовые паттерны и структуры на основе обширного массива обучающих данных, чтобы создавать новые результаты, которые имитируют характеристики данных, на которых они были обучены. В основе этой технологии лежат сложные модели глубокого обучения, такие как большие языковые модели (LLM), которые становятся все более доступными и мощными.

Как работает генеративный искусственный интеллект?

В основе генеративного ИИ лежат нейронные сети (НС), обученные на огромных массивах данных. В процессе обучения модель изучает вероятностное распределение данных. Получив подсказку или ввод, она использует это распределение для предсказания и генерирования следующего наиболее вероятного элемента в последовательности, будь то слово, пиксель или музыкальная нота. Этот процесс повторяется, чтобы создать полный контент. Многие современные генеративные модели построены на архитектуре Transformer, которая использует механизм внимания для оценки важности различных частей входных данных, что позволяет ей улавливать сложные, дальние зависимости и генерировать высококогерентные результаты. Такие мощные, предварительно обученные модели часто называют базовыми.

Генеративный ИИ против дискриминантного ИИ

Аналогом генеративного ИИ является дискриминативный ИИ. Ключевое различие заключается в их целях:

  • Генеративные модели: Изучают распределение данных для создания новых образцов данных. Их цель - ответить на вопрос: "Как выглядят данные?". В качестве примера можно привести модели для синтеза текста в изображение или генерации текста.
  • Дискриминантные модели: Изучают границы между различными классами данных, чтобы классифицировать или предсказать метку для заданного входного сигнала. Их цель - ответить на вопрос: "В чем разница между этими группами?". Большинство задач контролируемого обучения, таких как классификация изображений и обнаружение объектов, выполняемых такими моделями, как Ultralytics YOLO, относятся к этой категории.

В то время как дискриминативные модели отлично подходят для категоризации и прогнозирования, генеративные модели отлично подходят для создания и дополнения.

Применение в реальном мире

Генеративный искусственный интеллект преобразует множество отраслей промышленности и находит широкое применение:

  1. Создание и дополнение контента: Такие модели, как GPT-4, могут писать статьи, электронные письма и коды, а модели "текст в изображение", такие как DALL-E 3 и Midjourney, создают потрясающие визуальные образы из простых текстовых описаний. Это революционизирует сферы от маркетинга и развлечений до разработки программного обеспечения, а такие инструменты, как GitHub Copilot, помогают разработчикам.
  2. Генерация синтетических данных: Генеративный ИИ может создавать реалистичные искусственные данные для обучения других моделей машинного обучения (ML). Например, в автомобильном ИИ он может генерировать редкие сценарии вождения для повышения надежности моделей восприятия в автономных автомобилях. Аналогично, в здравоохранении он может создавать синтетические медицинские изображения для обучения диагностических инструментов, помогая преодолеть проблемы, связанные с конфиденциальностью данных и ограниченностью наборов данных. Эта техника дополняет традиционное увеличение данных.

Общие типы генеративных моделей

Несколько архитектур сыграли ключевую роль в развитии генеративного ИИ:

  • Генеративные адверсарные сети (GANs): Состоят из двух конкурирующих нейронных сетей - генератора и дискриминатора, - которые работают вместе, создавая высокореалистичные результаты.
  • Модели диффузии: Постепенно добавляйте шум к изображению, а затем научитесь обращать процесс вспять, чтобы получить изображения высокой достоверности. Именно эта технология лежит в основе таких моделей, как Stable Diffusion.
  • Большие языковые модели (LLM): Основанные на архитектуре Transformer, эти модели обучаются на огромных объемах текстовых данных, чтобы понимать и генерировать человекоподобный язык. Ведущие исследовательские организации, такие как Google AI и Meta AI, постоянно расширяют границы возможного.

Проблемы и этические соображения

Стремительное развитие генеративного ИИ порождает серьезные проблемы. Большую озабоченность вызывает возможность злоупотреблений, например, создание глубоких подделок для дезинформационных кампаний или нарушение прав интеллектуальной собственности. Модели также могут увековечить и усилить алгоритмические предубеждения, присутствующие в их обучающих данных. Решение этих проблем требует твердой приверженности этике ИИ и разработки надежных механизмов управления. Кроме того, обучение таких крупных моделей требует больших вычислительных затрат, что вызывает обеспокоенность по поводу их воздействия на окружающую среду. Эффективное управление жизненным циклом модели с помощью платформ MLOps, таких как Ultralytics HUB, может помочь упростить разработку и внедрение.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена