Entdecken Sie, wie multimodale Modelle Text, Bilder und Audio integrieren. Erfahren Sie mehr über Architekturen wie Ultralytics und setzen Sie Vision-KI auf der Ultralytics ein.
Ein multimodales Modell ist eine fortschrittliche Art von künstlicher Intelligenz (KI) , die in der Lage ist, Informationen aus mehreren verschiedenen Datentypen oder „Modalitäten“ gleichzeitig zu verarbeiten, zu interpretieren und zu integrieren. Während traditionelle unimodale Systeme auf einen einzigen Bereich spezialisiert sind – wie beispielsweise natürliche Sprachverarbeitung (NLP) für Text oder Computer Vision (CV) für Bilder –, zielen multimodale Modelle darauf ab, die menschliche Wahrnehmung nachzuahmen, indem sie visuelle, auditive und sprachliche Hinweise zusammenführen. Diese Konvergenz ermöglicht es dem Modell, ein umfassendes Verständnis der Welt zu entwickeln und komplexe Zusammenhänge zwischen einer visuellen Szene und einer gesprochenen Beschreibung herzustellen. Diese Fähigkeiten gelten als grundlegende Schritte auf dem Weg zur künstlichen allgemeinen Intelligenz (AGI).
Die Wirksamkeit eines multimodalen Modells hängt von seiner Fähigkeit ab, verschiedene Datentypen in einen gemeinsamen semantischen Raum abzubilden. Dieser Prozess beginnt in der Regel mit der Erstellung von Einbettungen, bei denen es sich um numerische Darstellungen handelt, die die wesentliche Bedeutung der Eingabedaten erfassen. Durch das Training mit riesigen Datensätzen gepaarter Beispiele, wie Videos mit Untertiteln, lernt das Modell, die Vektordarstellung eines „Katzen”-Bildes mit dem Text-Embedding für das Wort „Katze” abzugleichen.
Mehrere wichtige architektonische Konzepte machen diese Integration möglich:
Multimodale Modelle haben Möglichkeiten eröffnet, die mit Systemen, die nur eine Modalität nutzen, bisher nicht realisierbar waren.
Das folgende Beispiel zeigt, wie man die ultralytics Bibliothek zur Durchführung einer Open-Vocabulary-Erkennung,
bei der das Modell Textanweisungen interpretiert, um Objekte in einem Bild zu identifizieren:
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])
# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the detection results
results[0].show()
Es ist hilfreich, das „multimodale Modell“ von verwandten Begriffen im KI-Glossar zu unterscheiden:
Der Bereich entwickelt sich rasant in Richtung Systeme, die kontinuierliche Audio-, Video- und Textströme in Echtzeit verarbeiten können. Forschungen von Organisationen wie Google erweitern weiterhin die Grenzen der maschinellen Wahrnehmung. Bei Ultralytics unterstützen wir dieses Ökosystem mit leistungsstarken Vision-Backbones wie YOLO26. YOLO26 wurde 2026 veröffentlicht und bietet überragende Geschwindigkeit und Genauigkeit für Aufgaben wie die Instanzsegmentierung und dient als effiziente visuelle Komponente in größeren multimodalen Pipelines. Entwickler können die Daten, das Training und die Bereitstellung dieser komplexen Workflows mit der einheitlichen Ultralytics verwalten.