A afinação eficiente de parâmetros (Parameter-Efficient Fine-Tuning - PEFT) descreve um conjunto de técnicas utilizadas na aprendizagem automática (ML) para adaptar modelos grandes e pré-treinados (como os modelos de fundação) a tarefas específicas a jusante sem necessidade de atualizar todos os parâmetros do modelo. Em vez disso, os métodos PEFT centram-se na modificação de apenas um pequeno subconjunto de parâmetros ou na adição de um pequeno número de novos parâmetros. Esta abordagem reduz drasticamente os custos computacionais e de armazenamento associados ao ajuste fino de modelos maciços, tais como modelos de linguagem de grande dimensão (LLM) ou modelos de visão de grande escala utilizados na visão computacional (CV), tornando a personalização mais acessível e eficiente.
Relevância e benefícios
O surgimento de modelos pré-treinados extremamente grandes, muitas vezes contendo milhares de milhões de parâmetros, tornou os métodos tradicionais de afinação intensivos em recursos. O ajuste fino completo desses modelos requer uma potência computacional significativa (muitas vezes, várias GPUs topo de gama), grandes quantidades de memória e um espaço de armazenamento considerável para cada modelo adaptado. O PEFT aborda esses desafios oferecendo vários benefícios importantes:
- Custo computacional reduzido: Treinar apenas uma pequena fração de parâmetros requer significativamente menos potência e tempo de computação, permitindo uma iteração e experimentação mais rápidas, potencialmente utilizando plataformas como o Ultralytics HUB Cloud Training.
- Requisitos de memória mais baixos: Menos parâmetros activos significam que é necessária menos memória durante o treino e a inferência, tornando viável o ajuste fino de grandes modelos em hardware de consumo ou dispositivos de ponta.
- Menor espaço de armazenamento: Em vez de guardar uma cópia completa do modelo ajustado para cada tarefa, o PEFT muitas vezes requer apenas o armazenamento de um pequeno conjunto de parâmetros modificados ou adicionados, o que leva a uma economia substancial de armazenamento.
- Mitigação de sobreajuste: Ao limitar o número de parâmetros treináveis, o PEFT pode reduzir o risco de sobreajuste, especialmente quando o ajuste fino é feito em conjuntos de dados menores.
- Prevenção do esquecimento catastrófico: Os métodos PEFT, ao manterem a maioria dos parâmetros do modelo de base congelados, ajudam a reter o conhecimento geral aprendido durante o pré-treino, superando o esquecimento catastrófico, em que um modelo perde as capacidades anteriores ao aprender novas tarefas.
- Implementação eficiente de modelos: O tamanho mais pequeno dos parâmetros específicos da tarefa torna a implementação do modelo mais simples, especialmente em ambientes com recursos limitados, como a IA de ponta.
Conceitos e técnicas fundamentais
O PEFT baseia-se no conceito de aprendizagem por transferência, em que o conhecimento de um modelo de base é aplicado a uma nova tarefa. Enquanto o ajuste fino padrão ajusta muitas (ou todas) as camadas, o PEFT emprega métodos especializados. Algumas técnicas populares de PEFT incluem:
- Adaptadores: Pequenos módulos de rede neural inseridos entre as camadas de um modelo pré-treinado. Apenas os parâmetros desses módulos adaptadores são treinados durante o ajuste fino, enquanto os pesos do modelo original permanecem congelados.
- LoRA (Low-Rank Adaptation): Esta técnica injeta matrizes treináveis de baixa classificação nas camadas (geralmente camadas de transformação ) de um modelo grande. Parte da hipótese de que a alteração necessária para adaptar o modelo tem uma "classificação intrínseca" baixa e pode ser representada de forma eficiente. Lê o artigo de investigação original do LoRA para mais detalhes.
- Afinação de Prefixos: Anexa uma sequência de vectores contínuos e específicos da tarefa (prefixos) à entrada, mantendo os parâmetros LLM de base congelados. Apenas os parâmetros do prefixo são aprendidos.
- Ajuste de prompts: Semelhante ao Prefix-Tuning, mas simplifica-o adicionando "soft prompts" treináveis (embeddings) à sequência de entrada, que são optimizados diretamente através do backpropagation.
Bibliotecas como a bibliotecaHugging Face PEFT fornecem implementações de vários métodos PEFT, tornando-os mais fáceis de integrar em fluxos de trabalho de ML comuns.
Distinção de conceitos relacionados
É importante distinguir a PEFT de outras técnicas de adaptação e otimização de modelos:
- Afinação: O ajuste fino padrão normalmente atualiza todos ou uma parte significativa dos parâmetros do modelo pré-treinado em um novo conjunto de dados. O PEFT, em contraste, modifica apenas uma fração muito pequena dos parâmetros ou adiciona alguns novos.
- Poda de modelos: Esta técnica envolve a remoção de parâmetros redundantes ou sem importância (pesos ou ligações) de um modelo treinado para reduzir o seu tamanho e custo computacional, muitas vezes após o treino ou afinação completa. A PEFT centra-se numa adaptação eficiente, limitando o que é treinado inicialmente.
- Destilação de conhecimento: Envolve o treinamento de um modelo "aluno" menor para imitar o comportamento de um modelo "professor" maior e pré-treinado. O PEFT adapta diretamente o modelo grande, embora de forma eficiente.
- Afinação de hiperparâmetros: Este processo centra-se em encontrar as definições de configuração óptimas para o processo de formação (por exemplo, taxa de aprendizagem, tamanho do lote) em vez de adaptares os parâmetros aprendidos do modelo para uma nova tarefa. Ferramentas como a Ultralytics
Tuner
classe facilita isto.
Aplicações no mundo real
O PEFT permite a aplicação prática de grandes modelos em vários domínios:
Essencialmente, o Parameter-Efficient Fine-Tuning torna os modelos de IA de última geração, como os modelosYOLO Ultralytics , mais versáteis e económicos para se adaptarem a uma vasta gama de aplicações específicas, democratizando o acesso a poderosas capacidades de IA.