Glossar

Feature Engineering

Steigere die Genauigkeit des maschinellen Lernens mit fachkundigem Feature Engineering. Lerne Techniken zur Erstellung, Umwandlung und Auswahl aussagekräftiger Merkmale.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Feature-Engineering ist der entscheidende Prozess der Auswahl, Umwandlung und Erstellung von Merkmalen (Eingabevariablen) aus Rohdaten, um die Leistung von Machine-Learning-Modellen (ML) zu verbessern. Es ist eher eine Kunst als eine Wissenschaft und erfordert oft Fachwissen, Intuition und Experimente. Die Qualität der Merkmale, die in ein Modell eingespeist werden, wirkt sich direkt auf dessen Fähigkeit aus, Muster zu lernen und genaue Vorhersagen zu treffen, was das Feature Engineering zu einem Eckpfeiler erfolgreicher ML-Projekte macht. Bessere Merkmale können zu einfacheren Modellen, kürzeren Trainingszeiten und höherer Genauigkeit führen.

Was ist Feature Engineering?

Im Kern geht es beim Feature Engineering darum, rohe, oft unübersichtliche Daten in ein strukturiertes Format zu überführen, das Algorithmen verstehen und aus dem sie effektiv lernen können. Dazu müssen die Daten, der Problemkontext und das gewählte ML-Modell verstanden werden. Das Ziel ist es, informative, unterscheidungsfähige und unabhängige Eingangsmerkmale zu erstellen, die die zugrunde liegenden Muster hervorheben, die für die Vorhersage relevant sind. Dieser Prozess überbrückt die Lücke zwischen der Rohdatenerfassung und dem Modelltraining und hat einen entscheidenden Einfluss auf das Ergebnis der maschinellen Lernpipeline.

Schlüsseltechniken

Beim Feature-Engineering kommen verschiedene Techniken zum Einsatz, die oft in Kombination verwendet werden:

  • Feature-Erstellung: Generierung neuer Merkmale durch die Kombination oder Umwandlung bestehender Merkmale. Beispiele hierfür sind die Erstellung von Interaktionsterms (z. B. Multiplikation zweier Variablen), polynomiale Merkmale oder die Ableitung domänenspezifischer Kennzahlen (wie das Verhältnis von Schulden zu Einkommen im Finanzwesen).
  • Feature Transformation: Ändern bestehender Merkmale, um die Modellannahmen zu erfüllen oder die Leistung zu verbessern. Zu den gängigen Methoden gehören die Skalierung (z. B. Normalisierung), die logarithmische Transformation bei schiefen Daten oder die Einteilung kontinuierlicher Variablen in Kategorien. In der Computer Vision (CV) können Techniken wie die Datenerweiterung auch als eine Form der Merkmalstransformation von Bilddaten angesehen werden.
  • Merkmalsextraktion: Erstellung einer kleineren Menge neuer, informativerer Merkmale aus der ursprünglichen Menge, die oft zur Dimensionalitätsreduktion verwendet wird. Techniken wie die Hauptkomponentenanalyse (PCA) fallen in diese Kategorie. Die Extraktion ist zwar mit der Merkmalsauswahl verwandt, schafft aber neue Merkmale, während die Auswahl eine Teilmenge der vorhandenen Merkmale auswählt.
  • Merkmalsauswahl: Identifizierung und Auswahl der relevantesten Merkmale aus dem Originaldatensatz, wobei irrelevante oder redundante Merkmale verworfen werden. Dies trägt dazu bei, die Komplexität des Modells zu reduzieren, eine Überanpassung zu verhindern und die Effizienz der Berechnung zu verbessern. Die Methoden reichen von einfachen Korrelationsanalysen bis hin zu komplexeren Wrapper- und Embedded-Methoden.

Beispiele aus der realen Welt

Feature Engineering ist in vielen KI-Anwendungen allgegenwärtig:

  1. Vorausschauende Wartung: Zur Vorhersage von Anlagenausfällen können die rohen Sensordaten (Temperatur, Vibration, Druck) verrauscht und hochdimensional sein. Bei der Entwicklung von Merkmalen können Merkmale wie gleitende Mittelwerte, Standardabweichungen über Zeitfenster, Frequenzkomponenten von Schwingungsdaten (mithilfe von Fourier-Transformationen) oder die Zeit seit dem letzten Wartungsereignis berücksichtigt werden. Diese konstruierten Merkmale liefern klarere Signale für Modelle zur Ausfallvorhersage. Das ist entscheidend für die KI in der Fertigung.
  2. Natürliche Sprachverarbeitung (NLP): Für Aufgaben wie die Stimmungsanalyse muss der Rohtext umgewandelt werden. Das Feature-Engineering kann die Erstellung von TF(Term Frequency-Inverse Document Frequency), Wortzählungen, n-Grammen (Wortfolgen), Lesbarkeitsbewertungen oder die Extraktion spezifischer sprachlicher Merkmale (z. B. die Verwendung positiver/negativer Wörter) umfassen. Obwohl moderne Transformer-Modelle Repräsentationen automatisch erlernen, kann explizites Feature-Engineering die Leistung dennoch verbessern, insbesondere bei kleineren Datensätzen oder speziellen Aufgaben.

Feature Engineering vs. Verwandte Konzepte

  • Datenvorverarbeitung: Eine breitere Kategorie, die Feature Engineering, Datenbereinigung, Behandlung fehlender Werte und anfängliche Datenformatierung umfasst. Bei der Merkmalstechnik geht es vor allem darum, die Eingabevariablen für das Modell zu optimieren. Siehe den Ultralytics zur Vorverarbeitung von kommentierten Daten.
  • Merkmalsextraktion beim Deep Learning: Deep Learning-Modelle (DL), insbesondere CNNs, lernen automatisch hierarchische Merkmale aus Rohdaten (wie Pixeln). Dies verringert die Notwendigkeit der manuellen Merkmalserstellung, macht sie aber nicht ganz überflüssig, da die Vorverarbeitung der Eingaben oder die Erstellung von Merkmalen für Metadaten neben den Primärdaten immer noch von Vorteil sein kann.
  • Automatisiertes maschinelles Lernen (AutoML): Tools wie Google Cloud AutoML zielen darauf ab, verschiedene ML-Schritte zu automatisieren, darunter auch das Feature Engineering. Allerdings führen menschliches Verständnis und Fachwissen oft zu einem effektiveren Feature-Design als rein automatisierte Ansätze.

Feature Engineering und Ultralytics

Auch wenn fortschrittliche Modelle wie Ultralytics YOLO Aufgaben wie die Objekterkennung und Bildsegmentierung durch das automatische Erlernen relevanter visueller Merkmale mit Hilfe ihrer tiefen neuronalen Netzwerkarchitekturen(Backbone, Neck, Head) meistern, bleiben die Prinzipien der Merkmalstechnik weiterhin relevant. So ist zum Beispiel die Vorverarbeitung der Eingangsbilder (z. B. Histogrammausgleich bei unterschiedlichen Lichtverhältnissen, Rauschunterdrückung), bevor sie in ein YOLO eingespeist werden, eine Form der Merkmalstechnik, die die Robustheit verbessern kann. Darüber hinaus können die Ergebnisse von YOLO (z. B. Bounding-Box-Koordinaten, Objektklassen, Zählungen) zu Merkmalen für nachgelagerte Aufgaben verarbeitet oder mit anderen Datenquellen für komplexere Analysen kombiniert werden, z. B. mit Plattformen wie Ultralytics HUB, die bei der Organisation von Datensätzen und Modellen helfen. In der Ultralytics erfährst du mehr über die Verwendung und Anpassung von Modellen.

Alles lesen