了解 LoRA 如何对YOLO 等大型人工智能模型进行高效微调,从而降低成本,并以最少的资源实现边缘部署。
LoRA(Low-Rank Adaptation)是一种高效的技术,用于调整大型预训练机器学习(ML)模型,如用于自然语言处理(NLP)或计算机视觉(CV)的模型,以适应特定任务或数据集,而无需重新训练整个模型。它大大降低了与微调大规模模型相关的计算成本和内存要求,使高级人工智能更容易获得。LoRA 属于参数高效微调(PEFT)方法的范畴。
传统的微调包括利用新数据更新预训练模型的所有参数(或模型权重)。对于拥有数十亿个参数的模型来说,这一过程需要大量的计算资源,特别是 GPU内存和时间。LoRA 的工作原理是,调整模型所需的变化往往存在于低维空间中。
LoRA 并不修改所有原始权重,而是将其冻结,并将较小的、可训练的 "低秩 "矩阵注入模型架构的特定层,通常是在变换器模块中。在微调过程中,只有这些新添加的矩阵(适配器)会被更新。这就大大减少了可训练参数的数量,通常是数量级的减少,同时在许多情况下仍能达到与完全微调相当的性能。最初的LoRA 研究论文提供了有关该方法的更多技术细节。
LoRA 的主要优势在于其效率:
LoRA 的高效性使其在各个领域都具有重要价值: