Glossário

Afinação eficiente de parâmetros (PEFT)

Descobre o Parameter-Efficient Fine-Tuning (PEFT) para adaptar grandes modelos de IA com recursos mínimos. Poupa custos, evita o sobreajuste e optimiza a implementação!

A afinação eficiente de parâmetros (Parameter-Efficient Fine-Tuning - PEFT) descreve um conjunto de técnicas utilizadas na aprendizagem automática (ML) para adaptar modelos grandes e pré-treinados (como os modelos de fundação) a tarefas específicas a jusante sem necessidade de atualizar todos os parâmetros do modelo. Em vez disso, os métodos PEFT centram-se na modificação de apenas um pequeno subconjunto de parâmetros ou na adição de um pequeno número de novos parâmetros. Esta abordagem reduz drasticamente os custos computacionais e de armazenamento associados ao ajuste fino de modelos maciços, tais como modelos de linguagem de grande dimensão (LLM) ou modelos de visão de grande escala utilizados na visão computacional (CV), tornando a personalização mais acessível e eficiente.

Relevância e benefícios

O surgimento de modelos pré-treinados extremamente grandes, muitas vezes contendo milhares de milhões de parâmetros, tornou os métodos tradicionais de afinação intensivos em recursos. O ajuste fino completo desses modelos requer uma potência computacional significativa (muitas vezes, várias GPUs topo de gama), grandes quantidades de memória e um espaço de armazenamento considerável para cada modelo adaptado. O PEFT aborda esses desafios oferecendo vários benefícios importantes:

Custo computacional reduzido: Treinar apenas uma pequena fração de parâmetros requer significativamente menos potência e tempo de computação, permitindo uma iteração e experimentação mais rápidas, potencialmente utilizando plataformas como o Ultralytics HUB Cloud Training.
Requisitos de memória mais baixos: Menos parâmetros activos significam que é necessária menos memória durante o treino e a inferência, tornando viável o ajuste fino de grandes modelos em hardware de consumo ou dispositivos de ponta.
Menor espaço de armazenamento: Em vez de guardar uma cópia completa do modelo ajustado para cada tarefa, o PEFT muitas vezes requer apenas o armazenamento de um pequeno conjunto de parâmetros modificados ou adicionados, o que leva a uma economia substancial de armazenamento.
Mitigação de sobreajuste: Ao limitar o número de parâmetros treináveis, o PEFT pode reduzir o risco de sobreajuste, especialmente quando o ajuste fino é feito em conjuntos de dados menores.
Prevenção do esquecimento catastrófico: Os métodos PEFT, ao manterem a maioria dos parâmetros do modelo de base congelados, ajudam a reter o conhecimento geral aprendido durante o pré-treino, superando o esquecimento catastrófico, em que um modelo perde as capacidades anteriores ao aprender novas tarefas.
Implementação eficiente de modelos: O tamanho mais pequeno dos parâmetros específicos da tarefa torna a implementação do modelo mais simples, especialmente em ambientes com recursos limitados, como a IA de ponta.

Conceitos e técnicas fundamentais

O PEFT baseia-se no conceito de aprendizagem por transferência, em que o conhecimento de um modelo de base é aplicado a uma nova tarefa. Enquanto o ajuste fino padrão ajusta muitas (ou todas) as camadas, o PEFT emprega métodos especializados. Algumas técnicas populares de PEFT incluem:

Adaptadores: Pequenos módulos de rede neural inseridos entre as camadas de um modelo pré-treinado. Apenas os parâmetros desses módulos adaptadores são treinados durante o ajuste fino, enquanto os pesos do modelo original permanecem congelados.
LoRA (Low-Rank Adaptation): Esta técnica injeta matrizes treináveis de baixa classificação nas camadas (geralmente camadas de transformação ) de um modelo grande. Parte da hipótese de que a alteração necessária para adaptar o modelo tem uma "classificação intrínseca" baixa e pode ser representada de forma eficiente. Lê o artigo de investigação original do LoRA para mais detalhes.
Afinação de Prefixos: Anexa uma sequência de vectores contínuos e específicos da tarefa (prefixos) à entrada, mantendo os parâmetros LLM de base congelados. Apenas os parâmetros do prefixo são aprendidos.
Ajuste de prompts: Semelhante ao Prefix-Tuning, mas simplifica-o adicionando "soft prompts" treináveis (embeddings) à sequência de entrada, que são optimizados diretamente através do backpropagation.

Bibliotecas como a bibliotecaHugging Face PEFT fornecem implementações de vários métodos PEFT, tornando-os mais fáceis de integrar em fluxos de trabalho de ML comuns.

Distinção de conceitos relacionados

É importante distinguir a PEFT de outras técnicas de adaptação e otimização de modelos:

Afinação: O ajuste fino padrão normalmente atualiza todos ou uma parte significativa dos parâmetros do modelo pré-treinado em um novo conjunto de dados. O PEFT, em contraste, modifica apenas uma fração muito pequena dos parâmetros ou adiciona alguns novos.
Poda de modelos: Esta técnica envolve a remoção de parâmetros redundantes ou sem importância (pesos ou ligações) de um modelo treinado para reduzir o seu tamanho e custo computacional, muitas vezes após o treino ou afinação completa. A PEFT centra-se numa adaptação eficiente, limitando o que é treinado inicialmente.
Destilação de conhecimento: Envolve o treinamento de um modelo "aluno" menor para imitar o comportamento de um modelo "professor" maior e pré-treinado. O PEFT adapta diretamente o modelo grande, embora de forma eficiente.
Afinação de hiperparâmetros: Este processo centra-se em encontrar as definições de configuração óptimas para o processo de formação (por exemplo, taxa de aprendizagem, tamanho do lote) em vez de adaptares os parâmetros aprendidos do modelo para uma nova tarefa. Ferramentas como a Ultralytics Tuner classe facilita isto.

Aplicações no mundo real

O PEFT permite a aplicação prática de grandes modelos em vários domínios:

Processamento de linguagem natural (PNL): Adaptar modelos como o BERT ou o GPT-4 para tarefas especializadas, como a análise de sentimentos da literatura médica, o resumo de documentos jurídicos ou a criação de chatbots específicos de um domínio. Uma empresa pode utilizar o PEFT para afinar um LLM de atendimento ao cliente geral na sua base de conhecimentos interna para obter respostas mais precisas sem o custo de uma reciclagem completa. Grupos de investigação como o Stanford NLP Group exploram estas aplicações.
Visão por computador (CV): Personaliza modelos de visão de grandes dimensões, como o Vision Transformers (ViT) ou o Ultralytics YOLO para tarefas específicas de reconhecimento visual. Por exemplo, a adaptação de um modelo pré-treinado no vasto conjunto de dados COCO para a deteção precisa de objectos com defeitos únicos no controlo de qualidade de fabrico, a realização de segmentação de imagens especializadas para análise de imagens médicas ou a identificação de espécies animais específicas em armadilhas fotográficas de conservação da vida selvagem. Ferramentas como o Ultralytics HUB podem ajudar a gerir estes modelos adaptados.

Essencialmente, o Parameter-Efficient Fine-Tuning torna os modelos de IA de última geração, como os modelosYOLO Ultralytics , mais versáteis e económicos para se adaptarem a uma vasta gama de aplicações específicas, democratizando o acesso a poderosas capacidades de IA.

Afinação eficiente de parâmetros (PEFT)

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Solução flexível de licenciamento empresarial para impulsionar a tua inovação

Treina modelos de IA em segundos com Ultralytics YOLO

Treina os modelos YOLO simplesmente com Ultralytics HUB

Relevância e benefícios

Conceitos e técnicas fundamentais

Distinção de conceitos relacionados

Aplicações no mundo real

Lê mais blogues

Junta-te à comunidade Ultralytics

Afinação eficiente de parâmetros (PEFT)

Treina os modelos YOLO simplesmentecom Ultralytics HUB

Solução flexível de licenciamento empresarial para impulsionar a tua inovação

Treina modelos de IA em segundos com Ultralytics YOLO

Treina os modelos YOLO simplesmente com Ultralytics HUB

Relevância e benefícios

Conceitos e técnicas fundamentais

Distinção de conceitos relacionados

Aplicações no mundo real

Lê mais blogues

Junta-te à comunidade Ultralytics

Treina os modelos YOLO simplesmente
com Ultralytics HUB