Глоссарий

Модель фундамента

Узнай, как фундаментальные модели революционизируют ИИ благодаря масштабируемым архитектурам, широкому предтренингу и адаптируемости к различным приложениям.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Фундаментальные модели представляют собой значительный сдвиг в парадигме искусственного интеллекта (ИИ), характеризующийся их масштабностью и обучением на огромных, разнообразных наборах данных. В отличие от традиционных моделей машинного обучения (ML), созданных для решения конкретных задач, базовые модели предварительно обучаются на обширных данных, что позволяет адаптировать их - или тонко настраивать - дляширокого спектра последующих приложений при относительно небольшом количестве данных по конкретной задаче. Такой подход, часто использующий трансферное обучение, ускоряет развитие ИИ и делает мощные возможности более доступными. Термин был популяризирован Стэнфордским институтом человекоцентрированного искусственного интеллекта (HAI).

Основные характеристики моделей фундамента

Фундаментальные модели определяются тремя основными характеристиками: масштабом, общностью и адаптивностью.

  1. Масштаб: Они обучаются на наборах данных веб-масштаба, содержащих текст, изображения, код и другие типы данных, часто включающих миллиарды или триллионы точек данных. Как правило, они обладают миллиардами параметров, что требует значительных вычислительных ресурсов (GPU).GPU) для обучения.
  2. Общность: Обширное предварительное обучение наделяет эти модели широким пониманием паттернов, синтаксиса, семантики и контекста в обучающих данных. Это позволяет им хорошо справляться с задачами, для которых они не были явно обучены, иногда с помощью обучения с нуля или с нескольких выстрелов.
  3. Адаптивность: Их основная сила заключается в способности адаптироваться к конкретным задачам за счет тонкой настройки. Это предполагает дополнительное обучение на меньшем, специфичном для конкретной задачи наборе данных, что значительно сокращает объем данных и время, требуемое по сравнению с обучением модели с нуля. Архитектуры, подобные трансформеру, известные тем, что умеют работать с последовательными данными и улавливать дальние зависимости, широко используются, особенно в обработке естественного языка (NLP) и все чаще в компьютерном зрении (CV).

Применение и примеры

Универсальность моделей фундаментов стимулирует инновации во многих областях.

  • Обработка естественного языка: Такие модели, как GPT-4 и BERT, отлично справляются с такими задачами, как генерация текста, перевод, обобщение и создание сложных чат-ботов. Например, компания, занимающаяся обслуживанием клиентов, может отладить предварительно обученную языковую модель типа BERT на своих билетах в службу поддержки, чтобы создать высокоточную внутреннюю систему ответов на вопросы.
  • Компьютерное зрение: Такие модели основы зрения, как CLIP (Contrastive Language-Image Pre-training) и Segment Anything Model (SAM), решают такие задачи, как классификация изображений, обнаружение объектов и сегментация изображений. Например, компания, занимающаяся сельскохозяйственными технологиями, может адаптировать SAM , настроив ее на снимках с дронов, чтобы точно сегментировать различные типы культур или определять области, пораженные болезнями, причем для этого требуется гораздо меньше помеченных данных, чем при традиционном подходе к обучению с супервизией.
  • Мультимодальные приложения: Модели все чаще обучаются на нескольких типах данных (например, на тексте и изображениях), что позволяет решать такие задачи, как создание изображений из текстовых описаний(text-to-image) или ответы на вопросы об изображениях.

Модели фундамента против традиционных моделей

Основное отличие заключается в области применения и возможности повторного использования. Традиционные ML-модели обычно обучаются для одной конкретной задачи с использованием специально подобранного набора данных. Если возникает новая задача, то часто приходится строить и обучать новую модель с нуля. Однако базовые модели предоставляют базу для многократного использования. Их широкое предварительное обучение позволяет получить общие знания, которые затем можно эффективно специализировать.

Эта парадигма дает такие преимущества, как снижение необходимости в обширном сборе и аннотировании данных для каждой новой задачи и потенциально более быстрое развертывание модели. Однако проблемы включают в себя огромные вычислительные затраты и энергию, необходимые для предварительного обучения, риск наследования и усиления предубеждений, присутствующих в обучающих данных, а также значительные этические соображения относительно их потенциального неправильного использования и влияния на общество. Платформы, подобные Ultralytics HUB, призваны упростить процесс доступа, обучения и развертывания продвинутых моделей ИИ, помогая пользователям эффективно использовать эти мощные технологии.

Читать полностью