Glossar

Parametereffiziente Feinabstimmung (PEFT)

Entdecke das Parameter-effiziente Fine-Tuning (PEFT) für die Anpassung großer KI-Modelle mit minimalen Ressourcen. Spare Kosten, verhindere Überanpassung und optimiere den Einsatz!

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Parametereffizientes Fine-Tuning (PEFT) beschreibt eine Reihe von Techniken, die beim maschinellen Lernen (ML) eingesetzt werden, um große, vortrainierte Modelle (z. B. Basismodelle) an bestimmte nachgelagerte Aufgaben anzupassen, ohne dass alle Parameter des Modells aktualisiert werden müssen. Stattdessen konzentrieren sich PEFT-Methoden darauf, nur eine kleine Teilmenge von Parametern zu ändern oder eine kleine Anzahl neuer Parameter hinzuzufügen. Dieser Ansatz reduziert die Rechen- und Speicherkosten, die mit der Feinabstimmung großer Modelle verbunden sind, wie z. B. großer Sprachmodelle (LLMs) oder großer Bildgebungsmodelle, die in der Computer Vision (CV) verwendet werden, drastisch und macht die Anpassung zugänglicher und effizienter.

Relevanz und Nutzen

Das Aufkommen von extrem großen, vortrainierten Modellen, die oft Milliarden von Parametern enthalten, hat dazu geführt, dass traditionelle Feinabstimmungsmethoden ressourcenintensiv sind. Die vollständige Feinabstimmung solcher Modelle erfordert eine beträchtliche Rechenleistung (oft mehrere High-End-GPUs), große Mengen an Speicherplatz und viel Speicherplatz für jedes angepasste Modell. PEFT begegnet diesen Herausforderungen, indem es mehrere entscheidende Vorteile bietet:

  • Geringere Rechenkosten: Wenn nur ein kleiner Teil der Parameter trainiert wird, sinkt der Bedarf an teurer Hardware erheblich und die Trainingszeit wird verkürzt. Plattformen wie Ultralytics HUB Cloud Training können diesen Prozess weiter rationalisieren.
  • Geringerer Speicherbedarf: Da das ursprüngliche große Modell unverändert bleibt, muss für jede Aufgabe nur der kleine Satz an geänderten oder hinzugefügten Parametern gespeichert werden, was zu erheblichen Speicherplatzeinsparungen führt.
  • Verringerung des katastrophalen Vergessens: Indem PEFT die meisten Gewichte des vortrainierten Modells einfriert, verhindert PEFT, dass das Modell beim Erlernen einer neuen Aufgabe das allgemeine Wissen verliert, das es beim Vortraining erworben hat. Erfahre mehr über die Überwindung des katastrophalen Vergessens.
  • Bessere Generalisierung bei geringen Datenmengen: Manchmal kann die Feinabstimmung weniger Parameter zu einer besseren Leistung bei Aufgaben mit begrenzten Daten führen, da sie das Risiko einer Überanpassung an den kleinen Datensatz verringert.
  • Leichtere Bereitstellung: Kleinere aufgabenspezifische Parametersätze vereinfachen den Einsatz des Modells, vor allem in ressourcenbeschränkten Umgebungen wie Edge-KI-Geräten.

Schlüsselkonzepte und -techniken

PEFT baut auf dem Konzept des Transferlernens auf, bei dem das Wissen aus einem Basismodell auf eine neue Aufgabe angewendet wird. Während bei der normalen Feinabstimmung viele (oder alle) Schichten angepasst werden, setzt PEFT spezielle Methoden ein. Einige beliebte PEFT-Techniken sind:

  • Adapter: Kleine neuronale Netzmodule, die zwischen die bestehenden Schichten des vortrainierten Modells eingefügt werden. Nur die Parameter dieser neuen Adapterschichten werden trainiert. Weitere Informationen findest du im Original-Forschungspapier zu Adaptern.
  • LoRA (Low-Rank Adaptation): Injiziert trainierbare Low-Rank-Matrizen in die Schichten der Transformator-Architektur, um die Gewichtungsaktualisierungen anzugleichen und gleichzeitig die Anzahl der trainierbaren Parameter drastisch zu reduzieren.
  • Präfix-Tuning: Fügt einen kleinen Satz trainierbarer Präfix-Vektoren zum Input der Transformationsschichten hinzu und beeinflusst so den Aufmerksamkeitsmechanismus des Modells, ohne die ursprünglichen Gewichte zu verändern. Lies das Prefix-Tuning Papier.
  • Prompt-Abstimmung: Lernt Soft Prompts (kontinuierliche Vektoreinbettungen), die der Eingabesequenz vorangestellt werden und das Verhalten des eingefrorenen Modells für die jeweilige Aufgabe steuern.

Bibliotheken wie die Hugging Face PEFT-Bibliothek bieten Implementierungen verschiedener PEFT-Methoden.

Abgrenzung zu verwandten Konzepten

Es ist wichtig, PEFT von anderen Modellanpassungs- und Optimierungstechniken zu unterscheiden:

  • Vollständige Feinabstimmung: Aktualisiert alle oder einen großen Teil der Parameter des vortrainierten Modells. Es ist rechenintensiv, kann aber eine hohe Leistung erzielen, wenn genügend Daten und Ressourcen zur Verfügung stehen.
  • Model Pruning: Ziel ist es, die Modellgröße und die Inferenzlatenz zu reduzieren, indem überflüssige oder unwichtige Parameter (Gewichte oder Verbindungen) aus einem trainierten Modell entfernt werden. Im Gegensatz zu PEFT liegt der Schwerpunkt beim Pruning auf der Komprimierung und nicht auf der Aufgabenanpassung.
  • Wissensdestillation: Dabei wird ein kleineres "Schüler"-Modell so trainiert, dass es die Leistung oder das Verhalten eines größeren "Lehrermodells" nachahmt. Das Ziel ist es, Wissen zu übertragen, um die Leistung des kleineren Modells zu verbessern, während PEFT das große Modell selbst mit minimalen Änderungen anpasst.
  • Hyperparameter-Tuning: Konzentriert sich darauf, die optimalen Konfigurationseinstellungen (wie Lernrate oder Stapelgröße) für den Trainingsprozess zu finden, anstatt die Modellparameter direkt für die Aufgabenanpassung zu verändern.

Anwendungen in der realen Welt

PEFT ermöglicht die praktische Anwendung von großen Modellen in verschiedenen Bereichen:

  1. Natürliche Sprachverarbeitung (NLP): Anpassung von Basismodellen wie GPT-4 oder BERT für bestimmte Aufgaben wie die Erstellung spezieller Chatbots für den Kundenservice, die Durchführung gezielter Stimmungsanalysen für die Marktforschung oder das Zusammenfassen domänenspezifischer Dokumente (z. B. juristische oder medizinische Texte). Viele Ressourcen sind bei Gruppen wie der Stanford NLP Group erhältlich.
  2. Computer Vision: Anpassung leistungsstarker Bildverarbeitungsmodelle, einschließlich Ultralytics YOLO Modelle, für spezielle Aufgaben der Objekterkennung oder Bildsegmentierung. Beispiele hierfür sind die Erkennung bestimmter Arten von Defekten an einem Fließband mit einem Modell, das ursprünglich auf allgemeinen Datensätzen wie COCO trainiert wurde, oder die Anpassung von Modellen für die präzise Analyse medizinischer Bilder oder die Verfolgung gefährdeter Arten im Naturschutz.

Im Wesentlichen macht das parameter-effiziente Fine-Tuning hochmoderne KI-Modelle wie die Ultralytics YOLO vielseitiger und kosteneffizienter, um sie für eine Vielzahl spezifischer Anwendungen anzupassen und den Zugang zu leistungsstarken KI-Funktionen zu demokratisieren.

Alles lesen