Глоссарий

Параметрически эффективная точная настройка (PEFT)

Открой для себя Parameter-Efficient Fine-Tuning (PEFT) для адаптации больших моделей ИИ с минимальными ресурсами. Сэкономь расходы, предотврати перебор и оптимизируй развертывание!

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Parameter-Efficient Fine-Tuning (PEFT) описывает набор методов, используемых в машинном обучении (ML) для адаптации больших, предварительно обученных моделей (например, фундаментных моделей) к конкретным последующим задачам без необходимости обновлять все параметры модели. Вместо этого методы PEFT сосредоточены на изменении лишь небольшого подмножества параметров или добавлении небольшого количества новых параметров. Такой подход значительно снижает затраты на вычисления и хранение данных, связанные с тонкой настройкой массивных моделей, таких как большие языковые модели (LLM) или крупномасштабные модели зрения, используемые в компьютерном зрении (CV), делая настройку более доступной и эффективной.

Актуальность и преимущества

Появление очень больших предварительно обученных моделей, часто содержащих миллиарды параметров, сделало традиционные методы тонкой настройки ресурсоемкими. Полная настройка таких моделей требует значительных вычислительных мощностей (часто нескольких высокопроизводительных GPU), больших объемов памяти и значительного пространства для хранения каждой адаптированной модели. PEFT решает эти проблемы, предлагая несколько ключевых преимуществ:

  • Снижение вычислительных затрат: Обучение лишь небольшой части параметров требует значительно меньше вычислительной мощности и времени, что позволяет быстрее проводить итерации и эксперименты, потенциально используя такие платформы, как Ultralytics HUB Cloud Training.
  • Меньшие требования к памяти: Меньшее количество активных параметров означает, что во время обучения и вывода требуется меньше памяти, что делает возможным тонкую настройку больших моделей на аппаратном обеспечении потребительского класса или на пограничных устройствах.
  • Меньше места для хранения данных: Вместо того чтобы сохранять полную копию точно настроенной модели для каждой задачи, PEFT часто требует хранения только небольшого набора измененных или добавленных параметров, что приводит к существенной экономии на хранении.
  • Снижение риска переборщить: Ограничивая количество обучаемых параметров, PEFT может снизить риск переподгонки, особенно при тонкой настройке на небольших наборах данных.
  • Предотвращение катастрофического забывания: Методы PEFT, сохраняя большинство параметров базовой модели в замороженном состоянии, помогают сохранить общие знания, полученные во время предварительного обучения, преодолевая катастрофическое забывание, когда модель теряет прежние возможности при обучении новым задачам.
  • Эффективное развертывание модели: Меньший размер параметров, специфичных для конкретной задачи, упрощает развертывание модели, особенно в средах с ограниченными ресурсами, таких как edge AI.

Ключевые концепции и техники

PEFT опирается на концепцию трансферного обучения, когда знания из базовой модели применяются к новой задаче. В то время как при стандартной тонкой настройке корректируются многие (или все) слои, в PEFT используются специализированные методы. Некоторые популярные техники PEFT включают в себя:

  • Адаптеры: Небольшие модули нейронных сетей, вставляемые между слоями предварительно обученной модели. При тонкой настройке обучаются только параметры этих модулей-адаптеров, а веса исходной модели остаются замороженными.
  • LoRA (Low-Rank Adaptation): Эта техника вводит обучаемые матрицы с низким рангом в слои (часто слои-трансформеры ) большой модели. Она предполагает, что изменения, необходимые для адаптации модели, имеют низкий "внутренний ранг" и могут быть представлены эффективно. Подробности читай в оригинальной научной статье LoRA.
  • Префикс-тюнинг: Добавляет на вход последовательность непрерывных векторов (префиксов), специфичных для конкретной задачи, сохраняя базовые параметры LLM замороженными. Обучаются только параметры префиксов.
  • Prompt Tuning: Похож на Prefix-Tuning, но упрощает его, добавляя во входную последовательность обучаемые "мягкие подсказки" (embeddings), которые оптимизируются непосредственно с помощью обратного распространения (backpropagation).

Такие библиотеки, как библиотекаHugging Face PEFT, предоставляют реализации различных методов PEFT, что облегчает их интеграцию в распространенные рабочие процессы ML.

Отличие от родственных понятий

Важно отличать PEFT от других техник адаптации и оптимизации моделей:

  • Тонкая настройка: Стандартная тонкая настройка обычно обновляет все или значительную часть параметров предварительно обученной модели на новом наборе данных. PEFT, напротив, изменяет лишь очень небольшую часть параметров или добавляет несколько новых.
  • Обрезка модели: Эта техника подразумевает удаление лишних или неважных параметров (весов или связей) из обученной модели для уменьшения ее размера и вычислительных затрат, часто после обучения или полной тонкой настройки. PEFT фокусируется на эффективной адаптации, ограничивая то, что обучается изначально.
  • Дистилляция знаний: Предполагает обучение меньшей модели "ученика", чтобы она имитировала поведение большей, предварительно обученной модели "учителя". PEFT напрямую адаптирует саму большую модель, хотя и неэффективно.
  • Настройка гиперпараметров: Этот процесс направлен на поиск оптимальных параметров конфигурации для тренировочного процесса (например, скорость обучения, размер партии), а не адаптировать выученные параметры модели под новую задачу. Такие инструменты, как Ultralytics Tuner класс облегчи это.

Применение в реальном мире

PEFT позволяет на практике применять большие модели в различных областях:

  • Обработка естественного языка (NLP): Адаптация таких моделей, как BERT или GPT-4, для решения специализированных задач, таких как анализ настроения медицинской литературы, обобщение юридических документов или создание чат-ботов, ориентированных на конкретную область. Компания может использовать PEFT для тонкой настройки общей модели обслуживания клиентов LLM на своей внутренней базе знаний для получения более точных ответов без затрат на полное переобучение. Исследовательские группы, такие как Stanford NLP Group, изучают эти приложения.
  • Компьютерное зрение (CV): Настройка больших моделей зрения, таких как Vision Transformers (ViT) или Ultralytics YOLO для конкретных задач визуального распознавания. Например, адаптация модели, предварительно обученной на широком наборе данных COCO, для точного обнаружения объектов с уникальными дефектами при контроле качества производства, выполнения специализированной сегментации изображений для анализа медицинских изображений или идентификации конкретных видов животных в фотоловушках для охраны дикой природы. Такие инструменты, как Ultralytics HUB, помогут управлять этими адаптированными моделями.

По сути, Parameter-Efficient Fine-Tuning делает современные модели ИИ, такие как моделиUltralytics YOLO , более универсальными и экономически эффективными для адаптации к широкому спектру специфических приложений, демократизируя доступ к мощным возможностям ИИ.

Читать полностью