Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Large Language Model (LLM)

Entdecken Sie die Grundlagen großer Sprachmodelle (LLMs). Erfahren Sie mehr über die Transformer-Architektur, Tokenisierung und die Kombination von LLMs mit Ultralytics .

Ein Large Language Model (LLM) ist eine hochentwickelte Art von künstlicher Intelligenz (KI), die anhand riesiger Datensätze trainiert wird, um die menschliche Sprache zu verstehen, zu generieren und zu manipulieren. Diese Modelle stellen eine bedeutende Weiterentwicklung im Bereich Deep Learning (DL) dar und nutzen neuronale Netzwerke mit Milliarden von Parametern, um komplexe sprachliche Muster, Grammatik und semantische Beziehungen zu erfassen. Im Kern basieren die meisten modernen LLMs auf der Transformer-Architektur, die es ihnen ermöglicht, Datensequenzen parallel statt sequenziell zu verarbeiten. Diese Architektur verwendet einen Selbstaufmerksamkeitsmechanismus, der es dem Modell ermöglicht, die Bedeutung verschiedener Wörter in einem Satz relativ zueinander zu gewichten, unabhängig von ihrer Entfernung im Text.

Kernmechanismen von LLMs

Die Funktionalität eines LLM beginnt mit der Tokenisierung, einem Prozess, bei dem Rohtext in kleinere Einheiten, sogenannte Token (Wörter oder Teilwörter), zerlegt wird. Während der Modelltrainingsphase analysiert das System Petabytes an Text aus dem Internet, Büchern und Artikeln. Es führt unüberwachtes Lernen durch, um das nächste Token in einer Sequenz vorherzusagen, und lernt so effektiv die statistische Struktur der Sprache.

Im Anschluss an diese erste Schulung nehmen Entwickler häufig Feinabstimmungen vor, um das Modell für bestimmte Aufgaben zu spezialisieren, wie beispielsweise medizinische Analysen oder Codierungsunterstützung. Diese Anpassungsfähigkeit ist der Grund, warum Organisationen wie das Stanford Center for Research on Foundation Models classify als „Grundlagenmodelle” classify – breite Grundlagen, auf denen spezifische Anwendungen aufgebaut werden.

Anwendungsfälle in der Praxis

LLMs haben sich von der theoretischen Forschung zu praktischen, wirkungsvollen Anwendungen in verschiedenen Branchen weiterentwickelt:

  • Intelligente virtuelle Assistenten: Der moderne Kundenservice stützt sich stark auf Chatbots, die mit LLMs betrieben werden. Im Gegensatz zu älteren regelbasierten Systemen können diese Agenten nuancierte Anfragen bearbeiten. Um die Genauigkeit zu verbessern und Halluzinationen zu reduzieren, integrieren Entwickler Retrieval Augmented Generation (RAG), wodurch das Modell vor der Beantwortung auf externe, aktuelle Unternehmensdokumente zugreifen kann.
  • Multimodale Bild-Sprach-Systeme: Die Grenze der KI verbindet Text mit visuellen Daten. Bild-Sprach-Modelle (VLMs) ermöglichen es Benutzern, Bilder mit natürlicher Sprache abzufragen. Durch die Kombination einer sprachlichen Schnittstelle mit einem robusten Detektor wie YOLO26 können Systeme beispielsweise Objekte in Echtzeit-Videofeeds anhand von Sprachbefehlen identifizieren und beschreiben.

Text und Vision mit Code verbinden

Während Standard-LLMs Text verarbeiten, verlagert sich die Branche zunehmend in Richtung multimodaler KI. Das folgende Beispiel zeigt, wie linguistische Eingabeaufforderungen Computer-Vision-Aufgaben mithilfe von YOLO steuern können, einem Modell, das Textdeskriptoren für die Erkennung offener Vokabulare versteht.

from ultralytics import YOLOWorld

# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])

# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

Unterscheidung von verwandten Konzepten

Es ist wichtig, LLMs von weiter gefassten oder parallelen Begriffen zu unterscheiden:

  • LLM vs. Natürliche Sprachverarbeitung (NLP): NLP ist das übergeordnete akademische Fachgebiet, das sich mit der Interaktion zwischen Computern und menschlicher Sprache befasst. Ein LLM ist ein spezifisches Werkzeug oder eine Technologie, die in diesem Bereich eingesetzt wird, um modernste Ergebnisse zu erzielen.
  • LLM vs. generative KI: Generative KI ist eine Kategorie, die jede KI umfasst, die in der Lage ist, neue Inhalte zu erstellen. LLMs sind die textbasierte Untergruppe dieser Kategorie, während Modelle wie Stable Diffusion die Untergruppe der Bildgenerierung darstellen.

Herausforderungen und Zukunftsaussichten

Trotz ihrer Fähigkeiten stehen LLMs vor Herausforderungen hinsichtlich Voreingenommenheit in der KI, da sie unbeabsichtigt Vorurteile aus ihren Trainingsdaten reproduzieren können. Darüber hinaus wirft die enorme Rechenleistung, die zum Trainieren von Modellen wie GPT-4 oder Google erforderlich ist, Bedenken hinsichtlich des Energieverbrauchs auf. Die Forschung konzentriert sich derzeit auf die Modellquantisierung, um diese Systeme so effizient zu machen, dass sie auf Edge-Hardware laufen können.

Für tiefergehende technische Einblicke bietet das Originalpapier „Attention Is All You Need“ die grundlegende Theorie für Transformatoren. Sie können auch erkunden, wie NVIDIA die Hardware für diese massiven Workloads optimiert.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten