Entdecken Sie die Leistungsfähigkeit von Fundamentmodellen in der KI. Erfahren Sie, wie Sie mit der Ultralytics groß angelegte Modelle wie Ultralytics für benutzerdefinierte Aufgaben anpassen können.
Ein Fundamentmodell stellt einen bedeutenden Paradigmenwechsel im Bereich der Künstlichen Intelligenz (KI) dar. Es handelt sich um ein groß angelegtes maschinelles Lernmodell, das auf einer riesigen Datenmenge trainiert wurde – oft mit Milliarden von Parametern – und an eine Vielzahl von nachgelagerten Aufgaben angepasst werden kann. Im Gegensatz zu herkömmlichen Modellen des maschinellen Lernens (ML), die in der Regel für einen bestimmten, singulären Zweck wie die Klassifizierung einer bestimmten Blumenart entwickelt werden, lernt ein Grundlagenmodell während einer ressourcenintensiven Vor-Trainingsphase allgemeine Muster, Strukturen und Beziehungen. Diese breite Wissensbasis ermöglicht es Entwicklern, das Modell durch Transferlernen auf neue Probleme anzuwenden, wodurch der Zeit- und Datenaufwand für die Erzielung modernster Ergebnisse erheblich reduziert wird.
Die Stärke eines Fundamentmodells liegt in seinem zweistufigen Entwicklungsprozess: Vorabtraining und Feinabstimmung. Während des Vorabtrainings wird das Modell mit riesigen Datensätzen konfrontiert, wie z. B. großen Teilen des Internets, vielfältigen Bildbibliotheken oder umfangreichen Code-Repositorys. In dieser Phase wird häufig selbstüberwachtes Lernen eingesetzt, eine Technik , bei der das Modell seine eigenen Labels aus der Datenstruktur selbst generiert, wodurch der Engpass der manuellen Datenannotation beseitigt wird. Ein Sprachmodell könnte beispielsweise lernen, das nächste Wort in einem Satz vorherzusagen, während ein Bildverarbeitungsmodell lernt, Kanten, Texturen und die Objektpermanenz zu verstehen.
Nach dem Vortraining dient das Modell als vielseitiger Ausgangspunkt. Durch einen Prozess namens Fine-Tuning können Entwickler die Gewichte des Modells anhand eines kleineren, domänenspezifischen Datensatzes optimieren. Diese Fähigkeit ist von zentraler Bedeutung für die Demokratisierung der KI, da sie es Unternehmen mit begrenzten Rechenressourcen ermöglicht, leistungsstarke Architekturen zu nutzen. Moderne Workflows nutzen häufig Tools wie die Ultralytics , um diesen Anpassungsprozess zu optimieren und ein effizientes Training mit benutzerdefinierten Datensätzen zu ermöglichen, ohne dass ein neuronales Netzwerk von Grund auf neu aufgebaut werden muss.
Foundation-Modelle dienen als Rückgrat für Innovationen in verschiedenen Branchen. Aufgrund ihrer Fähigkeit zur Verallgemeinerung können sie für Aufgaben eingesetzt werden, die von der Verarbeitung natürlicher Sprache bis hin zu fortgeschrittener Computervision reichen.
Entwickler können Foundation-Modelle nutzen, um komplexe Aufgaben mit minimalem Codeaufwand auszuführen. Das folgende Beispiel zeigt, wie ein vortrainiertes YOLO26-Modell– ein für Echtzeitanwendungen optimiertes Vision-Foundation-Modell – geladen und eine Objekterkennung in einem Bild durchgeführt wird.
from ultralytics import YOLO
# Load a pre-trained YOLO26 foundation model
# 'n' stands for nano, the smallest and fastest version
model = YOLO("yolo26n.pt")
# Perform inference on an image to detect objects
# The model uses its pre-trained knowledge to identify common objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Es ist hilfreich, das „Foundation Model“ von verwandten Konzepten in der KI-Landschaft zu unterscheiden, um ihre spezifischen Rollen zu verstehen:
Die Entwicklung von Grundlagenmodellen geht in Richtung multimodaler KI, bei der ein einziges System Informationen aus Text, Bildern, Audio und Sensordaten gleichzeitig verarbeiten und in Beziehung setzen kann. Forschungen von Institutionen wie dem Stanford Institute for Human-Centered AI (HAI) unterstreichen das Potenzial dieser Systeme, die Welt ähnlich wie Menschen zu verstehen. Da diese Modelle immer effizienter werden, wird der Einsatz auf Edge-Computing-Geräten immer praktikabler, wodurch leistungsstarke KI-Funktionen direkt auf Smartphones, Drohnen und IoT-Sensoren verfügbar werden.