Глоссарий

Генеративный искусственный интеллект

Узнай, как генеративный ИИ создает оригинальный контент в виде текста, изображений и аудио, преобразуя отрасли с помощью инновационных приложений.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Генеративный искусственный интеллект (ИИ) представляет собой значительное направление в более широкой области искусственного интеллекта (ИИ), сфокусированное на создании систем, способных генерировать совершенно новый, оригинальный контент. Этот контент может охватывать различные модальности, включая текст, изображения, аудио, код и даже синтетические данные. В отличие от дискриминационных моделей ИИ, которые обучаются классифицировать или делать прогнозы на основе входных данных (например, определять объекты на изображении с помощью функции обнаружения объектов), генеративные модели изучают базовые паттерны, структуры и распределения вероятностей в обучающем наборе данных. Затем они используют эти знания для получения новых результатов, которые имитируют характеристики исходных данных. Недавние прорывы, особенно благодаря таким архитектурам, как генеративные предварительно обученные трансформаторы (GPT) и диффузионные модели, позволили создавать удивительно реалистичный и сложный контент, расширяя границы машинного творчества.

Как работает генеративный искусственный интеллект

Основная идея большинства генеративных моделей заключается в том, чтобы выучить представление распределения данных. Как только это распределение изучено, модель может делать выборки из него, чтобы генерировать новые точки данных, которые статистически похожи на данные, на которых она обучалась. Для этого используются сложные архитектуры нейронных сетей (НС) и сложные методы обучения. Некоторые известные архитектуры включают в себя:

Генеративный ИИ против компьютерного зрения

Хотя обе эти области являются подобластями ИИ, генеративный ИИ и компьютерное зрение (КВ) имеют принципиально разные цели. CV фокусируется на том, чтобы дать машинам возможность интерпретировать и понимать визуальную информацию из окружающего мира, выполняя такие задачи, как классификация изображений, обнаружение объектов и сегментация экземпляров. Генеративный ИИ, напротив, сосредоточен на создании нового визуального (или иного) контента.

Основные различия, которые были отмечены во время дискуссий, подобных той, что проходила на YOLO Vision 2024, включают в себя:

  1. Размер модели: Генеративные модели, особенно LLM и большие модели изображений, часто содержат миллиарды или даже триллионы параметров. Модели CV, предназначенные для анализа в реальном времени, такие как Ultralytics YOLO11как правило, гораздо меньше и эффективнее, а некоторые варианты содержат всего несколько миллионов параметров(сравнение моделей YOLO ).
  2. Вычислительные ресурсы: Обучение и запуск больших генеративных моделей требуют значительных вычислительных мощностей, часто с привлечением распределенных кластеров графических процессоров. Многие модели CV, в том числе и модели Ultralytics, оптимизированы для эффективности и могут быть развернуты на стандартном оборудовании или специализированных устройствах, использующих такие фреймворки, как ONNX или TensorRT.
  3. Цель: CV анализирует существующие данные; генеративный ИИ синтезирует новые данные.

Несмотря на эти различия, области становятся все более взаимосвязанными. Генеративный ИИ оказывается ценным для CV, поскольку генерирует высококачественные синтетические данные. Эти синтетические данные могут дополнить реальные наборы данных, помогая обучать более надежные и точные модели КВ, особенно в сценариях, где реальных данных мало или их трудно получить, например в симуляторах автономного вождения или визуализации редких медицинских заболеваний(ИИ в здравоохранении).

Применение в реальном мире

Генеративный ИИ трансформирует множество отраслей:

  • Создание контента: Автоматизация генерации статей, маркетинговых копий, скриптов(GPT-3), создание уникальных изображений и иллюстраций(Midjourney, DALL-E 3), сочинение музыки и генерация видеоконтента(OpenAI Sora).
  • Генерация синтетических данных: Создание реалистичных наборов данных для обучения ML-моделей в таких областях, как робототехника, финансы(модели компьютерного зрения в финансах) и здравоохранение, повышение производительности моделей и решение проблем конфиденциальности данных. Например, генерация синтетических медицинских изображений для обучения диагностических инструментов без использования реальных данных пациентов.
  • Открытие лекарств и материаловедение: Проектирование новых молекулярных структур и предсказание их свойств, ускорение исследований и разработок, что демонстрируют такие организации, как Google DeepMind.
  • Персонализация: Обеспечивает высокую степень персонализации пользовательского опыта за счет динамической генерации контента в чат-ботах, виртуальных помощниках и рекомендательных движках.
  • Разработка программного обеспечения: Помогай разработчикам, генерируя фрагменты кода, предлагая исправления ошибок и даже создавая целые функции на основе описаний на естественном языке(GitHub Copilot).

Проблемы и этические соображения

Стремительное развитие генеративного ИИ также порождает проблемы. Обеспечение этичного использования этих мощных инструментов имеет первостепенное значение, особенно в отношении deepfakes, дезинформации, прав на интеллектуальную собственность и присущих им предубеждений, полученных из обучающих данных. Решение этих проблем требует тщательной разработки моделей, надежных методов обнаружения и четких рекомендаций, изложенных в принципах этики ИИ. Кроме того, значительные необходимые вычислительные ресурсы создают проблемы с экологией и доступностью. Такие платформы, как Ultralytics HUB, призваны упростить рабочие процессы и потенциально снизить барьеры на пути к решению определенных задач ИИ.

Читать полностью