Glossar

Stiftung Modell

Entdecke, wie Foundation Models die KI mit skalierbaren Architekturen, breitem Pretraining und Anpassungsfähigkeit für verschiedene Anwendungen revolutionieren.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Foundation-Modelle stellen einen bedeutenden Paradigmenwechsel in der Künstlichen Intelligenz (KI) dar. Sie zeichnen sich durch ihren enormen Umfang und ihr Training auf riesigen, vielfältigen Datensätzen aus. Anders als herkömmliche Modelle für maschinelles Lernen (ML), die für bestimmte Aufgaben entwickelt wurden, werden die Basismodelle auf einer breiten Datenbasis trainiert und können so mit relativ wenigen aufgabenspezifischen Daten für eineVielzahl von Anwendungen angepasst - oder feinabgestimmt -werden. Dieser Ansatz, der häufig auf dem Transfer-Lernen basiert, beschleunigt die Entwicklung von KI und macht leistungsstarke Funktionen leichter zugänglich. Der Begriff wurde durch das Stanford Institute for Human-Centered Artificial Intelligence (HAI) bekannt gemacht.

Kernmerkmale der Stiftungsmodelle

Gründungsmodelle werden durch drei Hauptmerkmale definiert: Umfang, Allgemeinheit und Anpassungsfähigkeit.

  1. Maßstab: Sie werden auf Datensätzen im Web trainiert, die Text, Bilder, Code und andere Datentypen enthalten und oft Milliarden oder Billionen von Datenpunkten umfassen. Sie verfügen in der Regel über Milliarden von Parametern, was erhebliche Rechenressourcen erfordert (GPU) für das Training.
  2. Allgemeinheit: Durch das umfangreiche Vortraining verfügen diese Modelle über ein umfassendes Verständnis von Mustern, Syntax, Semantik und Kontext in ihren Trainingsdaten. Dadurch können sie auch bei Aufgaben gut abschneiden, für die sie nicht explizit trainiert wurden, manchmal durch Zero-Shot-Learning oder Little-Shot-Learning.
  3. Anpassungsfähigkeit: Ihre Hauptstärke liegt in ihrer Fähigkeit, durch Feinabstimmung an bestimmte Aufgaben angepasst zu werden. Dies beinhaltet zusätzliches Training auf einem kleineren, aufgabenspezifischen Datensatz, was den Daten- und Zeitaufwand im Vergleich zum Training eines Modells von Grund auf deutlich reduziert. Architekturen wie der Transformer, die dafür bekannt sind, sequenzielle Daten zu verarbeiten und weitreichende Abhängigkeiten zu erfassen, werden häufig eingesetzt, insbesondere in der natürlichen Sprachverarbeitung (NLP) und zunehmend auch in der Computer Vision (CV).

Anwendungen und Beispiele

Die Vielseitigkeit von Stiftungsmodellen treibt Innovationen in zahlreichen Bereichen voran.

  • Verarbeitung natürlicher Sprache: Modelle wie GPT-4 und BERT eignen sich hervorragend für Aufgaben wie Texterstellung, Übersetzung, Zusammenfassung und den Einsatz in anspruchsvollen Chatbots. Ein Kundendienstunternehmen könnte zum Beispiel ein vortrainiertes Sprachmodell wie BERT auf seine Support-Tickets abstimmen, um ein hochpräzises internes System zur Beantwortung von Fragen zu entwickeln.
  • Computer Vision: Vision-Grundmodelle wie CLIP (Contrastive Language-Image Pre-training) und das Segment Anything Model (SAM) erledigen Aufgaben wie Bildklassifizierung, Objekterkennung und Bildsegmentierung. Ein landwirtschaftliches Technologieunternehmen könnte SAM zum Beispiel anpassen, indem es es auf Drohnenbilder abstimmt, um verschiedene Pflanzenarten präzise zu segmentieren oder von Krankheiten befallene Gebiete zu identifizieren, wofür weitaus weniger markierte Daten benötigt werden als bei herkömmlichen überwachten Lernansätzen.
  • Multimodale Anwendungen: Modelle werden zunehmend auf mehrere Datentypen (z. B. Text und Bilder) trainiert, um z. B. Bilder aus Textbeschreibungen zu generieren(Text-zu-Bild) oder Fragen zu Bildern zu beantworten.

Gründungsmodelle vs. traditionelle Modelle

Der Hauptunterschied liegt im Umfang und in der Wiederverwendbarkeit. Herkömmliche ML-Modelle werden in der Regel für eine einzige, spezifische Aufgabe mit einem maßgeschneiderten Datensatz trainiert. Wenn eine neue Aufgabe auftaucht, muss oft ein neues Modell erstellt und von Grund auf trainiert werden. Foundation-Modelle hingegen bieten eine wiederverwendbare Grundlage. Ihr breites Vortraining erfasst allgemeines Wissen, das dann effizient spezialisiert werden kann.

Dieses Paradigma bietet Vorteile wie den geringeren Bedarf an umfangreicher Datenerfassung und -kommentierung für jede neue Aufgabe und eine potenziell schnellere Bereitstellung von Modellen. Zu den Herausforderungen gehören jedoch die immensen Rechenkosten und der Energieaufwand, die für das Pre-Training erforderlich sind, das Risiko der Übernahme und Verstärkung von Verzerrungen in den Trainingsdaten sowie erhebliche ethische Erwägungen hinsichtlich des potenziellen Missbrauchs und der gesellschaftlichen Auswirkungen. Plattformen wie Ultralytics HUB zielen darauf ab, den Zugang, das Training und den Einsatz fortschrittlicher KI-Modelle zu vereinfachen und den Nutzern zu helfen, diese leistungsstarken Technologien effektiv zu nutzen.

Alles lesen