Glossar

Inferenzmaschine

Entdecke, wie Inferenz-Engines KI vorantreiben, indem sie Vorhersagen in Echtzeit liefern, Modelle optimieren und den plattformübergreifenden Einsatz ermöglichen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Im Bereich der künstlichen Intelligenz und des maschinellen Lernens ist eine Inferenzmaschine die Komponente, die für den Einsatz trainierter Modelle verantwortlich ist, um Vorhersagen für neue, ungesehene Daten zu treffen. Sie wendet ein trainiertes Modell auf reale Daten an, um Aufgaben wie die Erkennung von Objekten, die Klassifizierung von Bildern oder die Verarbeitung natürlicher Sprache durchzuführen. Im Wesentlichen ist es die Engine, die die "Inferenz"-Phase des maschinellen Lernens antreibt, in der gelernte Muster verwendet werden, um neue Eingaben zu analysieren und zu interpretieren, damit KI-Systeme Probleme lösen und Entscheidungen in Echtzeit treffen können.

Wie Inference Engines funktionieren

Inferenz-Engines arbeiten mit vortrainierten Modellen, die bereits auf großen Datensätzen ausführlich trainiert wurden. Diese Modelle, die oft mit Frameworks wie PyTorchentwickelt werden, enthalten das gelernte Wissen, das für die Ausführung bestimmter Aufgaben erforderlich ist. Wenn neue Daten, wie z. B. ein Bild oder ein Text, in die Inferenzmaschine eingespeist werden, verarbeitet sie diese Daten mit dem vorher trainierten Modell. Dieser Prozess erzeugt eine Ausgabe, bei der es sich um eine Bounding Box zur Objekterkennung, ein Klassifizierungslabel oder eine Stimmungsvorhersage handeln kann. Ultralytics YOLO So nutzen z. B. Modelle Inference Engines, um die Objekterkennung, -segmentierung und -klassifizierung in Echtzeit auf verschiedenen Plattformen durchzuführen, von ressourcenbeschränkten Edge-Geräten bis hin zu leistungsstarken Cloud-Servern. Die Effizienz einer Inferenzmaschine ist für reale Anwendungen entscheidend, da sie sowohl die Geschwindigkeit als auch die Genauigkeit der Vorhersagen beeinflusst.

Hauptmerkmale von Inference Engines

  • Inferenz in Echtzeit: Die Inferenz-Engines sind auf Geschwindigkeit ausgelegt und ermöglichen Echtzeit-Inferenz für sofortige Entscheidungen in dynamischen Umgebungen.
  • Plattformübergreifender Einsatz: Sie unterstützen den Einsatz über verschiedene Hardware, von Edge-Geräten wie NVIDIA Jetson bis hin zur Cloud-Infrastruktur, und gewährleisten so Vielseitigkeit und Skalierbarkeit.
  • Modell-Optimierung: Inferenz-Engines enthalten oft Optimierungstechniken wie Modellquantisierung und Modellbeschneidung, um die Leistung zu verbessern und den Rechenaufwand zu verringern.
  • Integration mit Hardware-Beschleunigern: Sie sind so konzipiert, dass sie Hardware-Beschleuniger wie TensorRT und OpenVINO für eine optimierte Leistung auf bestimmten Hardware-Architekturen.
  • Unterstützung für mehrere Modellformate: Die Kompatibilität mit Standardmodellformaten wie ONNX ermöglicht die nahtlose Integration von Modellen, die in verschiedenen Frameworks trainiert wurden.

Anwendungen von Inference Engines

1. Autonomes Fahren

In selbstfahrenden Autos sind die Inferenzmaschinen das Herzstück des Wahrnehmungssystems. Sie verarbeiten Echtzeitdaten von Sensoren wie Kameras und LiDAR, um Objekte, Fußgänger und Fahrbahnmarkierungen zu erkennen, damit das Fahrzeug sicher navigieren kann. Ultralytics YOLO Wenn Modelle mit effizienten Inference Engines eingesetzt werden, sorgen sie für eine schnelle und genaue Objekterkennung, was für die Sicherheit und Reaktionsfähigkeit autonomer Fahrzeuge entscheidend ist.

2. Medizinische Bildanalyse

Im Gesundheitswesen revolutionieren Inferenzmaschinen die Diagnostik. In der medizinischen Bildanalyse können zum Beispiel Modelle, die für die Erkennung von Anomalien in medizinischen Bildern wie MRT- oder CT-Scans trainiert wurden, in Inferenzmaschinen eingesetzt werden, um Radiologen zu unterstützen. Diese Engines können Bilder schnell analysieren und potenziell bedenkliche Bereiche hervorheben, was die Diagnosegeschwindigkeit und -genauigkeit verbessert und eine frühere Erkennung von Krankheiten wie Hirntumoren ermöglicht.

Optimierungstechniken

Um sicherzustellen, dass die Inferenzmaschinen optimal funktionieren, werden verschiedene Optimierungstechniken eingesetzt. Die Modellquantisierung verringert die numerische Genauigkeit der Modellgewichte, wodurch die Modellgröße verringert und die Berechnungen beschleunigt werden. Durch Modellbeschneidung werden weniger wichtige Verbindungen im neuronalen Netz eliminiert, was das Modell vereinfacht und die Geschwindigkeit erhöht, ohne dass die Genauigkeit signifikant abnimmt. Hardwarespezifische Optimierungen, wie die Nutzung von NVIDIA TensorRT auf NVIDIA GPUs, erhöhen die Geschwindigkeit der Schlussfolgerungen weiter, indem sie die Modellausführung an die Hardwarearchitektur anpassen.

Unterscheidung von Inference Engines und verwandten Konzepten

Während Inferenz-Engines für den Einsatz von KI-Modellen entscheidend sind, unterscheiden sie sich von Trainings-Frameworks wie PyTorchdie zum Erstellen und Trainieren von Modellen verwendet werden. Inferenz-Engines konzentrieren sich ausschließlich auf den Einsatz und die Ausführung von bereits trainierten Modellen. Sie unterscheiden sich auch von der Modellbereitstellung, die umfassendere Strategien und Methoden umfasst, um Modelle in realen Umgebungen zugänglich und einsatzfähig zu machen.

Schlussfolgerung

Inference Engines sind unverzichtbar, wenn es darum geht, KI- und Machine Learning-Modelle aus dem Labor in die Praxis zu übertragen. Ihre Fähigkeit, schnelle und genaue Vorhersagen in verschiedenen Umgebungen zu liefern, macht sie zu einem Eckpfeiler der modernen KI-Infrastruktur. Plattformen wie Ultralytics HUB bieten Tools und Ressourcen für die effiziente Bereitstellung und Verwaltung von KI-Modellen, die auf robusten Inference Engines basieren, um den Einsatz von KI zu optimieren.

Alles lesen