Glossar

LoRA (Low-Rank Adaptation)

Entdecken Sie, wie LoRA große KI-Modelle wie YOLO effizient abstimmt, die Kosten senkt und eine Edge-Bereitstellung mit minimalen Ressourcen ermöglicht.

LoRA (Low-Rank Adaptation) ist eine hocheffiziente Technik zur Anpassung großer, vorab trainierter Modelle für maschinelles Lernen (ML) an bestimmte Aufgaben, ohne dass das gesamte Modell neu trainiert werden muss. Ursprünglich in einem Papier von Microsoft-Forschern beschrieben, hat sich LoRA zu einem Eckpfeiler des Parameter-effizienten Fine-Tuning (PEFT) entwickelt. Es reduziert die Rechenkosten und den Speicherbedarf im Zusammenhang mit der Anpassung umfangreicher Modelle wie Large Language Models (LLMs) und anderer Basismodelle drastisch.

Wie LoRA funktioniert

Anstatt die Milliarden von Modellgewichten in einem vortrainierten Modell zu aktualisieren, friert LoRA sie alle ein. Anschließend wird ein Paar kleiner, trainierbarer Matrizen - so genannte Low-Rank-Adapter - in bestimmte Schichten des Modells injiziert, häufig innerhalb des Aufmerksamkeitsmechanismus einer Transformer-Architektur. Während des Trainingsprozesses werden nur die Parameter dieser neuen, viel kleineren Matrizen aktualisiert. Der Kerngedanke ist, dass die Änderungen, die zur Anpassung des Modells an eine neue Aufgabe erforderlich sind, mit weit weniger Parametern dargestellt werden können als das ursprüngliche Modell enthält. Dabei werden ähnliche Prinzipien wie bei der Dimensionalitätsreduktion genutzt, um die wesentlichen Informationen für die Anpassung in einer kompakten Form zu erfassen. Sobald das Training abgeschlossen ist, kann der kleine Adapter mit den ursprünglichen Gewichten zusammengeführt oder für einen modularen Aufgabenwechsel getrennt gehalten werden.

Anwendungen in der realen Welt

Die Effizienz von LoRA macht es ideal für eine breite Palette von Anwendungen, insbesondere wenn mehrere benutzerdefinierte Modelle benötigt werden.

  • Chatbots anpassen: Ein Unternehmen kann ein leistungsfähiges, universelles LLM nehmen und es mit LoRA auf seine interne Wissensbasis trainieren. Auf diese Weise entsteht ein spezialisierter Kundenservice-Chatbot, der die unternehmensspezifische Terminologie versteht, ohne die immensen Kosten einer vollständigen Feinabstimmung.
  • KI-Kunst und Stilübertragung: Künstler und Designer nutzen LoRA, um generative KI-Modelle wie Stable Diffusion an einen bestimmten künstlerischen Stil anzupassen. Indem sie einen Adapter mit einer kleinen Menge ihrer eigenen Bilder trainieren, können sie neue Kunst erzeugen, die ihre einzigartige Ästhetik nachahmt - eine beliebte Praxis auf Plattformen wie Hugging Face.

LoRA vs. Verwandte Konzepte

Es ist hilfreich, LoRA von anderen Modellanpassungstechniken zu unterscheiden:

  • Vollständige Feinabstimmung: Bei dieser Methode werden alle Gewichte eines vorab trainierten Modells in einem neuen Datensatz aktualisiert. Sie ist zwar oft effektiv, erfordert aber erhebliche Rechenressourcen(GPU) und Speicherplatz für jedes angepasste Modell. Im Gegensatz dazu friert LoRA die ursprünglichen Gewichte ein und trainiert nur die kleinen, injizierten Adaptermatrizen. Weitere Einzelheiten finden Sie in unserem Glossareintrag zur Feinabstimmung und in der Übersicht zur Feinabstimmung von NVIDIA.
  • Prompt-Abstimmung: Bei dieser Technik bleiben die Modellgewichte vollständig eingefroren und lernen stattdessen kontinuierliche "Soft Prompts" (Vektoren, die zu den Eingabeeinbettungen hinzugefügt werden), um das Verhalten des Modells für bestimmte Aufgaben zu steuern. Im Gegensatz zu LoRA werden die Modellgewichte nicht verändert, sondern es wird lediglich die Eingabedarstellung angepasst. Lesen Sie mehr über Prompt-Tuning und Prompt-Engineering.
  • Andere PEFT-Methoden: LoRA ist nur eine Technik innerhalb des breiteren Feldes des Parameter-Effizienten Fine-Tunings (PEFT). Zu den anderen Methoden gehören Adapter-Tuning (ähnlich, aber mit leicht unterschiedlichen Adapterstrukturen), Prefix-Tuning und IA³, die jeweils unterschiedliche Kompromisse in Bezug auf Parametereffizienz und Leistung bieten. Diese Methoden sind üblicherweise in Frameworks wie der Hugging Face PEFT-Bibliothek verfügbar.

Zusammenfassend lässt sich sagen, dass LoRA eine leistungsstarke und ressourceneffiziente Möglichkeit bietet, große vortrainierte Basismodelle für ein breites Spektrum spezifischer Aufgaben in den Bereichen natürliche Sprachverarbeitung (NLP) und Computer Vision anzupassen, wodurch fortgeschrittene KI praktischer und zugänglicher wird. Dieser Ansatz ermöglicht die einfache Verwaltung und Bereitstellung vieler spezialisierter Modelle, ein Prozess, der durch Plattformen wie Ultralytics HUB für die Verwaltung von Modell-Lebenszyklen rationalisiert wird.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert