Entdecken Sie GPT-3, das leistungsstarke LLM mit 175 Milliarden Parametern von OpenAI. Erfahren Sie mehr über seine Architektur, NLP-Aufgaben und wie Sie es mit Ultralytics für Vision-Language-Anwendungen kombinieren können.
Generative Pre-trained Transformer 3, allgemein bekannt als GPT-3, ist ein hochentwickeltes großes Sprachmodell (LLM), das von OpenAI entwickelt wurde und Deep Learning nutzt, um menschenähnliche Texte zu produzieren. Als Modell der dritten Generation in der GPT-Serie stellte es einen bedeutenden Fortschritt in den Fähigkeiten der natürlichen Sprachverarbeitung (NLP) . Durch die Verarbeitung von Eingabetext und die Vorhersage des wahrscheinlichsten nächsten Wortes in einer Sequenz kann GPT-3 eine Vielzahl von Aufgaben ausführen – vom Verfassen von Aufsätzen und Code bis hin zur Übersetzung von Sprachen –, ohne dass für jede einzelne Aufgabe ein spezielles Training erforderlich ist, eine Fähigkeit, die als Few-Shot-Lernen
GPT-3 basiert auf der Transformer-Architektur und nutzt speziell eine reine Decoder-Struktur. Es ist enorm umfangreich und verfügt über 175 Milliarden Parameter für maschinelles Lernen , wodurch es Nuancen in Sprache, Kontext und Syntax mit hoher Genauigkeit erfassen kann. Das Modell durchläuft ein umfangreiches unüberwachtes Lernen anhand eines riesigen Korpus von Textdaten aus dem Internet, darunter Bücher, Artikel und Websites.
Während der Inferenz interagieren die Benutzer mit dem Modell über Prompt Engineering. Durch die Bereitstellung einer strukturierten Texteingabe leiten die Benutzer das Modell dazu an, bestimmte Ausgaben zu generieren, wie z. B. die Zusammenfassung eines technischen Dokuments oder das Brainstorming kreativer Ideen.
Die Vielseitigkeit von GPT-3 ermöglicht den Einsatz in zahlreichen Anwendungen in verschiedenen Branchen.
Obwohl GPT-3 ein textbasiertes Modell ist, fungiert es oft als „Gehirn“ in Pipelines, die mit Computer Vision (CV) beginnen. Ein gängiger Arbeitsablauf besteht darin, ein Bild mit einem Hochgeschwindigkeits-Objektdetektor zu analysieren und die Erkennungsergebnisse dann in GPT-3 einzuspeisen, um eine narrative Beschreibung oder einen Sicherheitsbericht zu generieren.
Das folgende Beispiel zeigt, wie das Ultralytics - Modell verwendet wird, um detect und die Ausgabe als Textprompt zu formatieren, der für ein LLM geeignet ist:
from ultralytics import YOLO
# Load the YOLO26 model (optimized for real-time edge performance)
model = YOLO("yolo26n.pt")
# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Extract class names to create a context string
detected_classes = [model.names[int(cls)] for cls in results[0].boxes.cls]
context_string = f"The image contains: {', '.join(detected_classes)}."
# This string can now be sent to GPT-3 for further processing
print(f"LLM Prompt: {context_string} Describe the potential activity.")
Um zu verstehen, wo GPT-3 in der KI-Landschaft einzuordnen ist, muss man es von ähnlichen Technologien unterscheiden:
Trotz seiner Leistungsfähigkeit ist GPT-3 ressourcenintensiv und erfordert leistungsstarke GPUs für einen effizienten Betrieb. Es steht auch vor Herausforderungen mit Halluzinationen in LLMs, bei denen das Modell selbstbewusst falsche Fakten präsentiert. Darüber hinaus müssen Benutzer die KI-Ethik beachten, da das Modell unbeabsichtigt algorithmische Verzerrungen reproduzieren kann, die in seinen Trainingsdaten vorhanden sind.
Entwickler, die komplexe Pipelines mit Bildverarbeitung und Sprache entwickeln möchten, können Ultralytics nutzen, um ihre Datensätze zu verwalten und spezialisierte Bildverarbeitungsmodelle zu trainieren, bevor sie diese in LLM-APIs integrieren. Für ein tieferes Verständnis der zugrunde liegenden Mechanismen bietet die ursprüngliche Forschungsarbeit „Language Models are Few-Shot Learners” umfassende technische Details.