파라미터 효율적인 미세 조정(PEFT)은 머신 러닝(ML) 에서 모델의 모든 파라미터를 업데이트할 필요 없이 미리 학습된 대규모 모델(예: 기초 모델)을 특정 다운스트림 작업에 맞게 조정하는 데 사용되는 기술 모음을 설명합니다. 대신 PEFT 방법은 매개변수의 일부만 수정하거나 소수의 새 매개변수를 추가하는 데 중점을 둡니다. 이 접근 방식은 대규모 언어 모델(LLM) 이나 컴퓨터 비전(CV)에 사용되는 대규모 비전 모델과 같은 대규모 모델을 미세 조정하는 것과 관련된 계산 및 스토리지 비용을 대폭 줄여주므로 사용자 지정에 더 쉽게 접근하고 효율적으로 사용할 수 있습니다.
관련성 및 이점
수십억 개의 파라미터를 포함하는 초대형 사전 학습 모델이 등장하면서 기존의 미세 조정 방법은 리소스 집약적인 방식이 되었습니다. 이러한 모델을 완전히 미세 조정하려면 상당한 연산 능력(종종 여러 대의 하이엔드 GPU), 많은 양의 메모리, 각 조정된 모델에 대한 상당한 저장 공간이 필요합니다. PEFT는 몇 가지 주요 이점을 제공함으로써 이러한 문제를 해결합니다:
- 컴퓨팅 비용 절감: 파라미터의 일부만 학습하면 값비싼 하드웨어의 필요성을 크게 낮추고 학습 시간을 단축할 수 있습니다. Ultralytics HUB 클라우드 교육과 같은 플랫폼은 이 프로세스를 더욱 간소화할 수 있습니다.
- 스토리지 요구 사항 감소: 원래의 큰 모델은 변경되지 않으므로 각 작업에 대해 수정되거나 추가된 작은 매개변수 세트만 저장하면 되므로 스토리지가 크게 절약됩니다.
- 치명적인 건망증 완화: PEFT는 사전 학습된 모델의 가중치를 대부분 동결함으로써 모델이 새로운 작업을 학습할 때 사전 학습 중에 습득한 일반적인 지식을 잃지 않도록 도와줍니다. 치명적 건망증 극복에 대해 자세히 알아보세요.
- 적은 데이터 체제에서의 일반화 개선: 때로는 더 적은 수의 매개변수를 미세 조정하면 작은 데이터 집합에 과적합할 위험이 줄어들기 때문에 데이터가 제한된 작업에서 더 나은 성능을 얻을 수 있습니다.
- 더 쉬운 배포: 작업별 매개변수 세트가 작아지면 특히 엣지 AI 디바이스와 같이 리소스가 제한된 환경에서 모델 배포가 간소화됩니다.
주요 개념 및 기술
PEFT는 기본 모델의 지식을 새로운 작업에 적용하는 전이 학습의 개념을 기반으로 합니다. 표준 미세 조정은 많은(또는 모든) 레이어를 조정하는 반면, PEFT는 특수한 방법을 사용합니다. 몇 가지 인기 있는 PEFT 기법은 다음과 같습니다:
- 어댑터: 사전 학습된 모델의 기존 레이어 사이에 삽입된 작은 신경망 모듈입니다. 이러한 새로운 어댑터 레이어의 매개변수만 학습됩니다. 자세한 내용은 어댑터 연구 논문 원본을 참조하세요.
- LoRA(낮은 순위 적응): 학습 가능한 낮은 순위 행렬을 트랜스포머 아키텍처의 레이어에 주입하여 학습 가능한 파라미터 수를 대폭 줄이면서 가중치 업데이트를 근사화합니다.
- 접두사 튜닝: 트랜스포머 레이어의 입력에 훈련 가능한 접두사 벡터의 작은 집합을 추가하여 원래 가중치를 수정하지 않고 모델의 주의 메커니즘에 영향을 줍니다. 접두사 튜닝 백서를 읽어보세요.
- 프롬프트 튜닝: 입력 시퀀스에 추가되는 소프트 프롬프트(연속 벡터 임베딩)를 학습하여 특정 작업에 대한 고정된 모델의 동작을 안내합니다.
Hugging Face PEFT 라이브러리와 같은 라이브러리는 다양한 PEFT 메서드의 구현을 제공합니다.
관련 개념과의 차이점
PEFT를 다른 모델 적응 및 최적화 기법과 구별하는 것이 중요합니다:
- 전체 미세 조정: 사전 학습된 모델의 매개변수 전체 또는 상당 부분을 업데이트합니다. 계산 비용이 많이 들지만 충분한 데이터와 리소스를 사용할 수 있는 경우 높은 성능을 얻을 수 있습니다.
- 모델 가지치기: 학습된 모델에서 중복되거나 중요하지 않은 매개변수(가중치 또는 연결)를 제거하여 모델 크기와 추론 대기 시간을 줄이는 것을 목표로 합니다. PEFT와 달리 가지 치기는 작업 적응보다는 압축에 중점을 둡니다.
- 지식 증류: 더 작은 '학생' 모델이 더 큰 '교사' 모델의 출력이나 행동을 모방하도록 훈련하는 것을 포함합니다. 목표는 더 작은 모델에서 더 나은 성능을 위해 지식을 이전하는 것이지만, PEFT는 최소한의 변경만으로 큰 모델 자체를 직접 조정합니다.
- 하이퍼파라미터 튜닝: 작업 적응을 위해 모델 파라미터를 직접 수정하는 대신 학습 프로세스를 위한 최적의 구성 설정(예: 학습 속도 또는 배치 크기)을 찾는 데 중점을 둡니다.
실제 애플리케이션
PEFT를 사용하면 다양한 도메인에 걸쳐 대규모 모델을 실제로 적용할 수 있습니다:
- 자연어 처리(NLP): 고객 서비스를 위한 전문 챗봇 생성, 시장 조사를 위한 타깃 감정 분석 수행, 도메인별 문서 요약(예: 법률 또는 의료 텍스트) 등 특정 작업에 GPT-4 또는 BERT와 같은 기반 모델을 적용합니다. 스탠포드 NLP 그룹과 같은 그룹에서 많은 리소스를 이용할 수 있습니다.
- 컴퓨터 비전: 다음을 포함한 강력한 비전 모델 사용자 지정 Ultralytics YOLO 모델을 포함한 강력한 비전 모델을 특수한 물체 감지 또는 이미지 세분화 작업에 맞게 사용자 지정합니다. 예를 들어 COCO와 같은 일반 데이터 세트에서 처음 학습된 모델을 사용하여 제조 조립 라인에서 특정 유형의 결함을 식별하거나, 정밀한 의료 이미지 분석 또는 야생동물 보호에서 멸종 위기종을 추적하기 위해 모델을 조정하는 등의 작업을 수행할 수 있습니다.
본질적으로 파라미터 효율적인 미세 조정은 Ultralytics YOLO 모델과 같은 최첨단 AI 모델을 더욱 다양하고 비용 효율적으로 다양한 특정 애플리케이션에 맞게 조정할 수 있게 하여 강력한 AI 기능에 대한 액세스를 대중화합니다.