Glossar

LoRA (Low-Rank Adaptation)

Entdecke, wie LoRA große KI-Modelle wie YOLO effizient abstimmt, die Kosten senkt und den Edge-Einsatz mit minimalen Ressourcen ermöglicht.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

LoRA (Low-Rank Adaptation) ist eine effiziente Technik, mit der große vortrainierte Modelle für maschinelles Lernen (ML), wie z. B. für die Verarbeitung natürlicher Sprache (NLP) oder Computer Vision (CV), an bestimmte Aufgaben oder Datensätze angepasst werden können, ohne das gesamte Modell neu zu trainieren. Dadurch werden die Rechenkosten und der Speicherbedarf, die mit der Feinabstimmung umfangreicher Modelle verbunden sind, erheblich reduziert und fortschrittliche KI zugänglicher gemacht. LoRA gehört zu den Methoden des Parameter-Efficient Fine-Tuning (PEFT), die sich auf die Anpassung von Modellen mit minimalen Änderungen ihrer Parameter konzentrieren.

Wie LoRA funktioniert

Bei der traditionellen Feinabstimmung werden alle Parameter (oder Modellgewichte) eines vorab trainierten Modells anhand neuer Daten aktualisiert. Für Modelle mit Milliarden von Parametern, wie viele moderne LLMs oder große Visionsmodelle, erfordert dieser Prozess erhebliche Rechenressourcen, insbesondere GPU Speicher und Zeit. LoRA basiert auf dem durch die Forschung untermauerten Prinzip, dass die für die Anpassung eines Modells erforderlichen Änderungen oft in einem niedrigdimensionalen Raum liegen, sodass nicht jedes einzelne Gewicht geändert werden muss.

Anstatt alle ursprünglichen Gewichte zu verändern, friert LoRA sie ein und fügt kleinere, trainierbare "Low-Rank"-Matrizen in bestimmte Schichten der Modellarchitektur ein, oft innerhalb von Transformer-Blöcken (eine häufige Komponente in vielen großen Modellen, die in dem Papier Attention Is All You Need näher erläutert wird). Nur diese neu hinzugefügten Matrizen (oft Adapter genannt) werden während des Feinabstimmungsprozesses aktualisiert. Dadurch wird die Anzahl der trainierbaren Parameter drastisch reduziert, oft um Größenordnungen (z. B. Millionen statt Milliarden), und trotzdem wird in vielen Fällen eine Leistung erzielt, die mit der vollständigen Feinabstimmung vergleichbar ist. Das Original-Forschungspapier von LoRA enthält weitere technische Details über die Methode und ihre Wirksamkeit. Dieser Ansatz macht den Feinabstimmungsprozess deutlich schneller und weniger speicherintensiv.

Relevanz und Nutzen

Der Hauptvorteil von LoRA ist seine Effizienz, die mehrere entscheidende Vorteile mit sich bringt:

  • Geringere Rechenkosten: Im Vergleich zur vollständigen Feinabstimmung wird deutlich weniger GPU und Rechenleistung benötigt, sodass große Modelle auch auf weniger leistungsstarker Hardware angepasst werden können.
  • Geringerer Speicherplatzbedarf: Da die ursprünglichen Modellgewichte eingefroren sind, müssen nur die kleinen LoRA-Adapter für jede spezifische Aufgabe gespeichert werden. Das ist viel effizienter, als für jede Aufgabe eine vollständige Kopie des feinabgestimmten Modells zu speichern.
  • Schnellerer Aufgabenwechsel: Wenn du verschiedene LoRA-Adapter lädst, kannst du schnell zwischen den Aufgaben wechseln, ohne ganz neue große Modelle zu laden.
  • Vergleichbare Leistung: Obwohl viel weniger Parameter trainiert werden, erreicht LoRA oft eine ähnliche Genauigkeit wie bei einer vollständigen Feinabstimmung für bestimmte nachgelagerte Aufgaben.
  • Ermöglichung des Edge-Einsatzes: Die geringeren Ressourcenanforderungen erleichtern die Anpassung von Modellen für Edge-Computing-Szenarien, in denen die Rechenleistung und der Speicher begrenzt sind, und bringen leistungsstarke KI-Funktionen auf Geräte wie Smartphones oder eingebettete Systeme(Edge AI erklärt von Intel).
  • Demokratisierung: Senkt die Einstiegshürde für Forscher und Entwickler, die moderne Modelle wie GPT-4 oder Ultralytics YOLO Modelle.

Anwendungen von LoRA

Die Effizienz von LoRA macht sie in verschiedenen Bereichen wertvoll:

  1. Anpassen von großen Sprachmodellen (LLMs): Dies ist eine der häufigsten Anwendungen. Entwickler können ein umfangreiches vortrainiertes LLM (wie das von Hugging Face) und LoRA verwenden, um sie für bestimmte Anwendungen zu spezialisieren, z. B. für benutzerdefinierte Chatbots, domänenspezifische Frage-Antwort-Systeme oder die Verbesserung der Textzusammenfassung für bestimmte Arten von Dokumenten. Bibliotheken wie die PEFT-Bibliothek vonHugging Face bieten einfache Implementierungen von LoRA.
  2. Computer Vision Modelle anpassen: LoRA kann auf große Computer Vision Modelle für Aufgaben wie Objekterkennung, Bildsegmentierung oder Posenschätzung angewendet werden. Ein Ultralytics YOLO , das auf einem großen Datensatz wie COCO trainiert wurde, kann mit LoRA effizient angepasst werden, um bestimmte Arten von Objekten in einem Nischenbereich zu erkennen, z. B. gefährdete Arten für den Naturschutz oder bestimmte Fehler in der Qualitätskontrolle in der Fertigung. Plattformen wie Ultralytics HUB können das Training und den Einsatz solcher angepassten Modelle vereinfachen.

LoRA vs. Verwandte Konzepte

Es ist hilfreich, LoRA von anderen Modellanpassungstechniken zu unterscheiden:

  • Vollständige Feinabstimmung: Bei dieser Methode werden alle Gewichte eines vorab trainierten Modells auf einem neuen Datensatz aktualisiert. Sie ist zwar oft effektiv, erfordert aber erhebliche Rechenressourcen und Speicherplatz für jedes angepasste Modell. Im Gegensatz dazu friert LoRA die ursprünglichen Gewichte ein und trainiert nur die kleinen, injizierten Adaptermatrizen. Weitere Details findest du in unserem Glossar und in der Übersicht vonNVIDIA über das Fine-Tuning.
  • Prompt Tuning: Bei dieser Technik werden die Modellgewichte nicht verändert und stattdessen werden kontinuierliche "Soft Prompts" (Vektoren, die zu den Eingabeeinbettungen hinzugefügt werden) gelernt, um das Verhalten des Modells für bestimmte Aufgaben zu steuern. Im Gegensatz zu LoRA werden die Modellgewichte nicht verändert, sondern es wird lediglich die Eingabedarstellung angepasst. Lies mehr über Prompt Tuning und Prompt Engineering.
  • Andere PEFT-Methoden: LoRA ist nur eine Technik innerhalb des breiteren Feldes des Parameter-Effizienten Fine-Tunings (PEFT). Zu den anderen Methoden gehören Adapter-Tuning (ähnlich, aber mit etwas anderen Adapterstrukturen), Prefix-Tuning und IA³, die jeweils unterschiedliche Kompromisse in Bezug auf Parametereffizienz und Leistung bieten.

Zusammenfassend lässt sich sagen, dass LoRA eine leistungsstarke und ressourceneffiziente Methode ist, um große vortrainierte Basismodelle für eine Vielzahl spezifischer Aufgaben in den Bereichen NLP und Computer Vision anzupassen und so fortgeschrittene KI praktischer und zugänglicher zu machen.

Alles lesen