Фундаментальные модели представляют собой значительный сдвиг в парадигме искусственного интеллекта (ИИ), характеризующийся их масштабностью и обучением на огромных, разнообразных наборах данных. В отличие от традиционных моделей машинного обучения (ML), созданных для решения конкретных задач, базовые модели предварительно обучаются на обширных данных, что позволяет адаптировать их - или тонко настраивать - дляширокого спектра последующих приложений при относительно небольшом количестве данных по конкретной задаче. Такой подход, часто использующий трансферное обучение, ускоряет развитие ИИ и делает мощные возможности более доступными. Термин был популяризирован Стэнфордским институтом человекоцентрированного искусственного интеллекта (HAI).
Основные характеристики моделей фундамента
Фундаментальные модели определяются тремя основными характеристиками: масштабом, общностью и адаптивностью.
- Масштаб: Они обучаются на наборах данных веб-масштаба, содержащих текст, изображения, код и другие типы данных, часто включающих миллиарды или триллионы точек данных. Как правило, они обладают миллиардами параметров, что требует значительных вычислительных ресурсов (GPU).GPU) для обучения.
- Общность: Обширное предварительное обучение наделяет эти модели широким пониманием паттернов, синтаксиса, семантики и контекста в обучающих данных. Это позволяет им хорошо справляться с задачами, для которых они не были явно обучены, иногда с помощью обучения с нуля или с нескольких выстрелов.
- Адаптивность: Их основная сила заключается в способности адаптироваться к конкретным задачам за счет тонкой настройки. Это предполагает дополнительное обучение на меньшем, специфичном для конкретной задачи наборе данных, что значительно сокращает объем данных и время, требуемое по сравнению с обучением модели с нуля. Архитектуры, подобные трансформеру, известные тем, что умеют работать с последовательными данными и улавливать дальние зависимости, широко используются, особенно в обработке естественного языка (NLP) и все чаще в компьютерном зрении (CV).
Применение и примеры
Универсальность моделей фундаментов стимулирует инновации во многих областях.
- Обработка естественного языка: Такие модели, как GPT-4 и BERT, отлично справляются с такими задачами, как генерация текста, перевод, обобщение и создание сложных чат-ботов. Например, компания, занимающаяся обслуживанием клиентов, может отладить предварительно обученную языковую модель типа BERT на своих билетах в службу поддержки, чтобы создать высокоточную внутреннюю систему ответов на вопросы.
- Компьютерное зрение: Такие модели основы зрения, как CLIP (Contrastive Language-Image Pre-training) и Segment Anything Model (SAM), решают такие задачи, как классификация изображений, обнаружение объектов и сегментация изображений. Например, компания, занимающаяся сельскохозяйственными технологиями, может адаптировать SAM , настроив ее на снимках с дронов, чтобы точно сегментировать различные типы культур или определять области, пораженные болезнями, причем для этого требуется гораздо меньше помеченных данных, чем при традиционном подходе к обучению с супервизией.
- Мультимодальные приложения: Модели все чаще обучаются на нескольких типах данных (например, на тексте и изображениях), что позволяет решать такие задачи, как создание изображений из текстовых описаний(text-to-image) или ответы на вопросы об изображениях.
Модели фундамента против традиционных моделей
Основное отличие заключается в области применения и возможности повторного использования. Традиционные ML-модели обычно обучаются для одной конкретной задачи с использованием специально подобранного набора данных. Если возникает новая задача, то часто приходится строить и обучать новую модель с нуля. Однако базовые модели предоставляют базу для многократного использования. Их широкое предварительное обучение позволяет получить общие знания, которые затем можно эффективно специализировать.
Эта парадигма дает такие преимущества, как снижение необходимости в обширном сборе и аннотировании данных для каждой новой задачи и потенциально более быстрое развертывание модели. Однако проблемы включают в себя огромные вычислительные затраты и энергию, необходимые для предварительного обучения, риск наследования и усиления предубеждений, присутствующих в обучающих данных, а также значительные этические соображения относительно их потенциального неправильного использования и влияния на общество. Платформы, подобные Ultralytics HUB, призваны упростить процесс доступа, обучения и развертывания продвинутых моделей ИИ, помогая пользователям эффективно использовать эти мощные технологии.