Erfahren Sie, wie Modellgewichte als Wissen der KI fungieren. Entdecken Sie, wie Ultralytics optimierte Gewichte für ein schnelleres und genaueres Training und Inferenz nutzt.
Modellgewichte sind die lernbaren Parameter innerhalb eines maschinellen Lernmodells, die Eingabedaten in vorhergesagte Ausgaben umwandeln. In einem neuronalen Netzwerk repräsentieren diese Gewichte die Stärke der Verbindungen zwischen Neuronen über verschiedene Schichten hinweg. Wenn ein Modell initialisiert wird, werden diese Gewichte in der Regel auf zufällige, kleine Werte gesetzt, was bedeutet, dass das Modell nichts „weiß”. Durch einen als Training bezeichneten Prozess passt das Modell diese Gewichte iterativ auf der Grundlage der von ihm gemachten Fehler an und lernt so nach und nach, Muster, Merkmale und Beziehungen innerhalb der Daten zu erkennen. Man kann sich Modellgewichte als „Gedächtnis“ oder „Wissen“ der KI vorstellen; sie speichern das, was das System aus seinen Trainingsdaten gelernt hat.
Das primäre Ziel des Trainings eines neuronalen Netzwerks besteht darin, den optimalen Satz von Modellgewichten zu finden, der den Fehler zwischen den Vorhersagen des Modells und der tatsächlichen Grundwahrheit minimiert. Dieser Prozess umfasst das Durchlaufen der Daten durch das Netzwerk – ein Schritt, der als Vorwärtsdurchlauf bezeichnet wird – und die anschließende Berechnung eines Verlustwerts unter Verwendung einer bestimmten Verlustfunktion. Wenn die Vorhersage falsch ist, berechnet ein Optimierungsalgorithmus wie Stochastic Gradient Descent (SGD) oder der neuere Muon-Optimierer, der in YOLO26 verwendet wird, wie viel jedes Gewicht zum Fehler beigetragen hat.
Durch eine Technik namens Backpropagation aktualisiert der Algorithmus die Gewichte geringfügig, um den Fehler für das nächste Mal zu reduzieren. Dieser Zyklus wiederholt sich tausende oder millionenfach , bis sich die Modellgewichte stabilisieren und das System eine hohe Genauigkeit erreicht. Nach Abschluss des Trainings werden die Gewichte „eingefroren” und gespeichert, sodass das Modell für die Inferenz auf neue, unbekannte Daten eingesetzt werden kann.
Es ist wichtig, zwischen weights and biases zu unterscheiden, da sie zusammenwirken, aber unterschiedlichen Zwecken dienen. Während Modellgewichte die Stärke und Richtung der Verbindung zwischen Neuronen bestimmen (und damit die Steigung der Aktivierung steuern), ermöglichen Vorspannungen eine Verschiebung der Aktivierungsfunktion nach links oder rechts. Dieser Versatz stellt sicher, dass das Modell besser zu den Daten passt, selbst wenn alle Eingabemerkmale Null sind. Zusammen bilden Gewichte und Vorspannungen die lernbaren Parameter, die das Verhalten von Architekturen wie Convolutional Neural Networks (CNNs)
Modellgewichte sind die Kernkomponente, die es KI-Systemen ermöglicht, in verschiedenen Branchen zu funktionieren. Hier sind zwei konkrete Beispiele für ihre Anwendung:
In der Praxis umfasst die Arbeit mit Modellgewichten das Speichern der trainierten Parameter in einer Datei und deren späteres Laden für die
Vorhersage oder FeinabstimmungIm Ultralytics-Ökosystem
werden diese in der Regel als .pt (PyTorch)-Dateien.
Hier ist ein einfaches Beispiel dafür, wie man vortrainierte Gewichte in ein YOLO lädt und eine Vorhersage durchführt:
from ultralytics import YOLO
# Load a model with pre-trained weights (e.g., YOLO26n)
model = YOLO("yolo26n.pt")
# Run inference on an image using the loaded weights
results = model("https://ultralytics.com/images/bus.jpg")
# Print the number of detected objects
print(f"Detected {len(results[0].boxes)} objects.")
Einer der größten Vorteile von Modellgewichten ist ihre Portabilität. Anstatt ein Modell von Grund auf neu zu trainieren – was umfangreiche Datensätze und erhebliche Rechenleistung erfordert – nutzen Entwickler häufig Transferlernen. Dabei wird ein Modell mit Gewichten verwendet, die auf einem großen Datensatz wie COCO oder ImageNet und es an eine bestimmte Aufgabe anzupassen.
Beispielsweise könnten Sie die Gewichte aus einem allgemeinen Objektdetektor nehmen und sie anhand eines kleineren Datensatzes von Sonnenkollektoren feinabstimmen. Da die vortrainierten Gewichte bereits Kanten, Formen und Texturen verstehen, konvergiert das Modell viel schneller und benötigt weniger beschriftete Daten. Tools wie die Ultralytics vereinfachen diesen Prozess und ermöglichen es Teams, Datensätze zu verwalten, Modelle in der Cloud zu trainieren und optimierte Gewichte nahtlos auf Edge-Geräten einzusetzen.
Die moderne KI-Forschung konzentriert sich häufig darauf, die Dateigröße von Modellgewichten zu reduzieren, ohne dabei die Leistung zu beeinträchtigen – ein Prozess, der als Modellquantisierung bekannt ist. Durch die Reduzierung der Genauigkeit der Gewichte (z. B. von 32-Bit-Gleitkommazahlen auf 8-Bit-Ganzzahlen) können Entwickler den Speicherverbrauch erheblich senken und die Inferenzgeschwindigkeit verbessern. Dies ist entscheidend für den Einsatz von Modellen auf ressourcenbeschränkter Hardware wie Mobiltelefonen oder Raspberry Pi- Geräten. Darüber hinaus entfernen Techniken wie das Pruning Gewichte, die nur wenig zur Ausgabe beitragen, wodurch das Modell für Echtzeitanwendungen weiter optimiert wird.