Parameter-Efficient Fine-Tuning (PEFT) описывает набор методов, используемых в машинном обучении (ML) для адаптации больших, предварительно обученных моделей (например, фундаментных моделей) к конкретным последующим задачам без необходимости обновлять все параметры модели. Вместо этого методы PEFT сосредоточены на изменении лишь небольшого подмножества параметров или добавлении небольшого количества новых параметров. Такой подход значительно снижает вычислительные затраты и затраты на хранение данных, связанные с тонкой настройкой массивных моделей, таких как большие языковые модели (LLM) или крупномасштабные модели зрения, используемые в компьютерном зрении (CV), делая настройку более доступной и эффективной.
Актуальность и преимущества
Появление очень больших предварительно обученных моделей, часто содержащих миллиарды параметров, сделало традиционные методы тонкой настройки ресурсоемкими. Полная настройка таких моделей требует значительных вычислительных мощностей (часто нескольких высокопроизводительных GPU), больших объемов памяти и значительного пространства для хранения каждой адаптированной модели. PEFT решает эти проблемы, предлагая несколько ключевых преимуществ:
- Снижение вычислительных затрат: Обучение лишь небольшой части параметров значительно снижает потребность в дорогостоящем оборудовании и сокращает время обучения. Такие платформы, как Ultralytics HUB Cloud Training, могут еще больше упростить этот процесс.
- Меньше требований к хранению данных: Поскольку исходная большая модель остается неизменной, для каждой задачи нужно хранить только небольшой набор измененных или добавленных параметров, что приводит к существенной экономии на хранении.
- Смягчение катастрофического забывания: Замораживая большую часть весов предварительно обученной модели, PEFT помогает предотвратить потерю моделью общих знаний, полученных во время предварительного обучения, при обучении новой задаче. Узнай больше о преодолении катастрофического забывания.
- Улучшенное обобщение на режимах с малым количеством данных: Иногда тонкая настройка меньшего количества параметров может привести к улучшению производительности на задачах с ограниченным количеством данных, так как снижает риск чрезмерной подгонки к небольшому набору данных.
- Более простое развертывание: Меньшие наборы параметров для конкретной задачи упрощают развертывание модели, особенно в средах с ограниченными ресурсами, таких как пограничные устройства ИИ.
Ключевые концепции и техники
PEFT опирается на концепцию трансферного обучения, когда знания из базовой модели применяются к новой задаче. В то время как при стандартной тонкой настройке корректируются многие (или все) слои, в PEFT используются специализированные методы. Некоторые популярные техники PEFT включают в себя:
- Адаптеры: Небольшие модули нейронных сетей, вставляемые между существующими слоями предварительно обученной модели. Обучаются только параметры этих новых слоев-адаптеров. Подробности см. в оригинальной научной статье "Адаптеры".
- LoRA (Low-Rank Adaptation): Вводит обучаемые матрицы с низким рангом в слои архитектуры трансформатора, аппроксимируя обновление весов и резко сокращая количество обучаемых параметров.
- Префикс-тюнинг: Добавляет небольшой набор обучаемых префиксных векторов на входы трансформаторных слоев, влияя на механизм внимания модели без изменения исходных весов. Прочитай статью о префиксной настройке.
- Prompt Tuning: Изучает мягкие подсказки (непрерывные векторные вкрапления), добавляемые к входной последовательности, направляя поведение замороженной модели для выполнения конкретной задачи.
Такие библиотеки, как библиотекаHugging Face PEFT, предоставляют реализации различных методов PEFT.
Отличие от родственных понятий
Важно отличать PEFT от других техник адаптации и оптимизации моделей:
- Полная тонкая настройка: Обновляет все или большую часть параметров предварительно обученной модели. Это требует больших вычислительных затрат, но при наличии достаточного количества данных и ресурсов может обеспечить высокую производительность.
- Обрезка модели: Цель - уменьшить размер модели и время ожидания вывода путем удаления лишних или неважных параметров (весов или связей) из обученной модели. В отличие от PEFT, обрезка нацелена на сжатие, а не на адаптацию задачи.
- Дистилляция знаний: Предполагает обучение меньшей модели "ученика", чтобы она имитировала выход или поведение большей модели "учителя". Цель - передать знания для улучшения работы меньшей модели, в то время как PEFT напрямую адаптирует саму большую модель с минимальными изменениями.
- Настройка гиперпараметров: Фокусируется на поиске оптимальных параметров конфигурации (например, скорости обучения или размера партии) для процесса обучения, а не на изменении параметров модели непосредственно для адаптации задачи.
Применение в реальном мире
PEFT позволяет на практике применять большие модели в различных областях:
- Обработка естественного языка (NLP): Адаптация базовых моделей вроде GPT-4 или BERT для решения конкретных задач, таких как создание специализированных чат-ботов для обслуживания клиентов, проведение целевого анализа настроений для маркетинговых исследований или резюмирование документов, специфичных для конкретной области (например, юридических или медицинских текстов). Множество ресурсов можно найти в таких группах, как Stanford NLP Group.
- Компьютерное зрение: Настройка мощных моделей зрения, включая Ultralytics YOLO для решения специализированных задач по обнаружению объектов или сегментации изображений. В качестве примера можно привести определение конкретных типов дефектов на производственном конвейере с помощью модели, изначально обученной на общих наборах данных, таких как COCO, или адаптацию моделей для точного анализа медицинских изображений или отслеживания исчезающих видов при сохранении дикой природы.
По сути, Parameter-Efficient Fine-Tuning делает современные модели ИИ, такие как моделиUltralytics YOLO , более универсальными и экономически эффективными для адаптации к широкому спектру специфических приложений, демократизируя доступ к мощным возможностям ИИ.