Glossar

Modellbeschneidung

Optimiere Modelle für maschinelles Lernen mit Model Pruning. Erreiche schnellere Inferenzen, geringeren Speicherverbrauch und Energieeffizienz für ressourcenbeschränkte Einsätze.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Model Pruning ist eine wichtige Technik beim maschinellen Lernen, die darauf abzielt, die trainierten Modelle zu optimieren. Es optimiert Modelle, indem es ihre Komplexität und Größe reduziert, indem es weniger kritische Parameter - wie Gewichte und Verbindungen - aus einem neuronalen Netzwerk entfernt. Dieser Prozess macht die Modelle effizienter, ohne die Leistung wesentlich zu beeinträchtigen, was zu Vorteilen wie schnellerer Verarbeitung, geringerem Speicherbedarf und niedrigerem Energieverbrauch führt, was besonders für den Einsatz in Umgebungen mit begrenzten Ressourcen von Vorteil ist.

Warum Model Pruning verwenden?

Es gibt mehrere zwingende Gründe für den Einsatz von Model Pruning. Erstens wird dadurch die Größe von Machine-Learning-Modellen erheblich reduziert, so dass sie auf Geräten mit begrenztem Speicherplatz, wie z. B. Mobiltelefonen oder Edge-Systemen, leichter eingesetzt werden können. Kleinere Modelle führen auch zu schnelleren Schlussfolgerungen, da weniger Berechnungen erforderlich sind, um Vorhersagen zu treffen. Diese Geschwindigkeitsverbesserung ist für Echtzeitanwendungen wie die Objekterkennung in autonomen Fahrzeugen oder die Live-Videoanalyse von entscheidender Bedeutung. Außerdem verbrauchen verkleinerte Modelle weniger Energie, ein entscheidender Vorteil für batteriebetriebene Geräte und große Rechenzentren, die nachhaltige KI-Praktiken anstreben.

Arten der Modellbeschneidung

Das Modellpruning lässt sich grob in zwei Haupttypen unterteilen:

  • Weight Pruning: Diese Technik konzentriert sich auf das Entfernen einzelner Gewichte innerhalb des neuronalen Netzes. Es lässt sich weiter in strukturiertes und unstrukturiertes Pruning unterteilen. Beim unstrukturierten Pruning werden einzelne Gewichte unabhängig von ihrer Position entfernt, was zu spärlichen, aber möglicherweise unregelmäßigen Speicherzugriffsmustern führt. Beim strukturierten Pruning hingegen werden ganze Strukturen wie Filter oder Kanäle entfernt, was zu kompakteren und hardwarefreundlicheren Modellen führt.
  • Neuron Pruning: Beim Neuron Pruning, auch bekannt als Node oder Unit Pruning, werden ganze Neuronen oder Knoten aus einem neuronalen Netz entfernt. Diese Methode vereinfacht die Netzarchitektur stärker als das Weight Pruning und kann manchmal zu einer deutlichen Beschleunigung und Verkleinerung des Modells führen.

Model Pruning im Vergleich zu anderen Optimierungstechniken

Während das Model Pruning die Modellgröße durch das Entfernen von Parametern reduziert, bieten andere Techniken wie die Modellquantisierung und die Wissensdestillation alternative Optimierungsstrategien. Bei der Quantisierung wird die Genauigkeit der Gewichte reduziert (z. B. von 32-Bit-Gleitkommazahlen auf 8-Bit-Ganzzahlen), was ebenfalls die Modellgröße verringert und die Berechnungen beschleunigt, ohne die Modellstruktur zu verändern. Wissensdestillation trainiert ein kleineres "Schüler"-Modell, um das Verhalten eines größeren, komplexeren "Lehrermodells" zu imitieren. Diese Techniken werden oft in Kombination mit Pruning eingesetzt, um noch größere Effizienzgewinne zu erzielen. So kann ein Modell zunächst beschnitten werden, um seine Größe zu reduzieren, und dann quantisiert werden, um seine Leistung für den Einsatz weiter zu optimieren.

Reale Anwendungen des Model Pruning

Das Pruning von Modellen wird in vielen Bereichen eingesetzt, vor allem dort, wo die Rechenressourcen begrenzt sind oder die Effizienz im Vordergrund steht. Einige wichtige Anwendungen sind:

  • Mobile und Edge-Geräte: Der Einsatz von Ultralytics YOLO Modellen auf mobilen Geräten zur Objekterkennung und Bildverarbeitung in Echtzeit erfordert effiziente Modelle. Pruning hilft dabei, die Modellgröße und die Latenzzeit zu reduzieren, damit komplexe KI-Aufgaben auf Smartphones und IoT-Geräten ausgeführt werden können.
  • Autonome Fahrzeuge: Selbstfahrende Autos brauchen schnelle Entscheidungen auf der Grundlage von Sensordaten. Beschnittene Modelle gewährleisten schnelle Schlussfolgerungen für kritische Aufgaben wie Fußgängererkennung und Spurhaltung, bei denen eine geringe Latenzzeit für die Sicherheit entscheidend ist.

Schlussfolgerung

Model Pruning ist eine wichtige Optimierungstechnik für den Einsatz effizienter Machine-Learning-Modelle. Durch die Verringerung der Modellgröße und -komplexität werden schnellere Inferenzen, eine geringere Speichernutzung und ein niedrigerer Energieverbrauch ermöglicht. Ultralytics bietet eine Reihe von Tools und Ressourcen, die den Nutzern helfen, ihre Modelle zu optimieren, einschließlich Techniken wie Pruning, um die Praktikabilität und Effizienz ihrer Computer-Vision-Anwendungen in verschiedenen Einsatzszenarien zu verbessern.

Alles lesen