Descobre como o LoRA afina grandes modelos de IA, como YOLO , de forma eficiente, reduzindo os custos e permitindo a implementação de edge com recursos mínimos.
A LoRA (Low-Rank Adaptation) é uma técnica eficiente utilizada para adaptar grandes modelos de aprendizagem automática (ML) pré-treinados, como os utilizados no processamento de linguagem natural (NLP) ou na visão computacional (CV), a tarefas ou conjuntos de dados específicos sem voltar a treinar todo o modelo. Reduz significativamente o custo computacional e os requisitos de memória associados ao ajuste fino de modelos maciços, tornando a IA avançada mais acessível. O LoRA insere-se no âmbito dos métodos de afinação eficiente de parâmetros (PEFT), que se centram na adaptação de modelos com alterações mínimas dos seus parâmetros.
O ajuste fino tradicional envolve a atualização de todos os parâmetros (ou pesos do modelo) de um modelo pré-treinado utilizando novos dados. Para modelos com milhares de milhões de parâmetros, como muitos LLMs modernos ou grandes modelos de visão, este processo exige recursos computacionais substanciais, particularmente GPU memória e tempo. O LoRA funciona com base no princípio, apoiado pela investigação, de que as alterações necessárias para adaptar um modelo residem frequentemente num espaço de dimensão inferior, o que significa que não requerem a alteração de todos os pesos.
Em vez de modificar todos os pesos originais, o LoRA congela-os e injecta matrizes mais pequenas e treináveis de "baixo nível" em camadas específicas da arquitetura do modelo, muitas vezes dentro de blocos Transformer (um componente comum em muitos modelos grandes, explicado mais detalhadamente no artigo Attention Is All You Need). Apenas estas matrizes recém-adicionadas (frequentemente designadas por adaptadores) são actualizadas durante o processo de afinação. Isto reduz drasticamente o número de parâmetros treináveis, muitas vezes por ordens de grandeza (por exemplo, milhões em vez de milhares de milhões), ao mesmo tempo que consegue um desempenho comparável ao ajuste fino completo em muitos casos. O artigo de investigação original do LoRA fornece mais pormenores técnicos sobre a metodologia e a sua eficácia. Esta abordagem torna o processo de ajuste fino significativamente mais rápido e menos intensivo em termos de memória.
A principal vantagem do LoRA é a sua eficiência, que conduz a várias vantagens importantes:
A eficiência do LoRA torna-o valioso em vários domínios:
É útil distinguir o LoRA de outras técnicas de adaptação de modelos:
Em resumo, o LoRA fornece uma forma poderosa e eficiente em termos de recursos para personalizar grandes modelos de base pré-treinados para uma vasta gama de tarefas específicas, tanto em PNL como em visão computacional, tornando a IA avançada mais prática e acessível.