Изучите метод эффективной настройки параметров (PEFT) для оптимизации крупных моделей, таких как Ultralytics . Узнайте, как сократить вычислительные затраты и достичь лучших результатов на графических процессорах.
Параметрически эффективная точная настройка (PEFT) — это сложная стратегия оптимизации в машинном обучении (ML), которая позволяет настраивать большие, предварительно обученные модели под конкретные задачи, минимизируя при этом вычислительные затраты. Поскольку современные базовые модели выросли до миллиардов параметров, традиционные методы обучения, которые обновляют каждый вес в сети, стали непомерно дорогостоящими с точки зрения аппаратного обеспечения и энергии. PEFT решает эту проблему, замораживая подавляющее большинство весов предварительно обученной модели и обновляя только небольшой поднабор параметров или добавляя легкие адаптерные слои. Такой подход снижает барьер для входа, позволяя разработчикам достигать передовых результатов на потребительских графических процессорах без необходимости использования промышленных центров обработки данных.
Основной принцип PEFT основан на переносе обучения, когда модель использует представления признаков, полученные из огромных общедоступных наборов данных, таких как ImageNet , для решения новых задач. В стандартном рабочем процессе адаптация модели может включать «полную настройку», при которой обратная пропагация корректирует каждый параметр в нейронной сети.
Технологии PEFT, такие как LoRA (Low-Rank Adaptation), идут по другому пути. Они сохраняют статичной «основу» модели, сохраняя ее общие знания, и вводят небольшие обучаемые матрицы в определенные слои. Это предотвращает катастрофическое забывание, явление, при котором модель теряет свои исходные возможности при обучении новой информации. Уменьшая количество обучаемых параметров до 99%, PEFT значительно снижает требования к хранению и позволяет заменить несколько адаптеров для конкретных задач в одной базовой модели во время вывода в реальном времени.
PEFT особенно ценен в отраслях, где крайне важны периферийные вычисления и конфиденциальность данных.
В Ultralytics эффективность параметров часто достигается путем «замораживания» начальных слоев сети . Это гарантирует, что надежные экстракторы признаков остаются неизменными, в то время как только головные или более поздние слои адаптируются к новым классам. Это практическая реализация принципов PEFT для обнаружения объектов.
Следующий пример демонстрирует, как обучить модель YOLO26, заморозив первые 10 слоев базовой сети, чтобы сэкономить вычислительные ресурсы:
from ultralytics import YOLO
# Load the YOLO26 model (latest stable version)
model = YOLO("yolo26n.pt")
# Train on a custom dataset with the 'freeze' argument
# freeze=10 keeps the first 10 layers static, updating only deeper layers
results = model.train(data="coco8.yaml", epochs=5, freeze=10)
Для команд, стремящихся масштабировать этот процесс, Ultralytics предлагает унифицированный интерфейс для управления наборами данных, автоматизации аннотирования и мониторинга этих эффективных тренировочных прогонов из облака.
Чтобы выбрать правильную стратегию адаптации модели, полезно отличать PEFT от похожих терминов:
Благодаря демократизации доступа к высокопроизводительному ИИ, PEFT позволяет разработчикам создавать специализированные инструменты для автономных транспортных средств и интеллектуального производства без необходимости использования суперкомпьютерной инфраструктуры.