Glossar

t-distributed Stochastic Neighbor Embedding (t-SNE)

Erforsche t-SNE, eine leistungsstarke Technik zur Visualisierung hochdimensionaler Daten. Erfahre mehr über seine Einsatzmöglichkeiten, Vorteile und Anwendungen in KI und ML.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

t-distributed Stochastic Neighbor Embedding (t-SNE) ist ein beliebtes Verfahren zur Dimensionalitätsreduzierung, das sich besonders gut für die Visualisierung hochdimensionaler Datensätze im niedrigdimensionalen Raum eignet, typischerweise zwei oder drei Dimensionen. Sie wurde von Laurens van der Maaten und Geoffrey Hinton entwickelt und zeichnet sich dadurch aus, dass sie die zugrundeliegende Struktur von Daten, wie z. B. Cluster und Verteilungen, sichtbar macht und so komplexe Daten durch visuelle Inspektion leichter verständlich macht. Es wird häufig in den Bereichen maschinelles Lernen (ML) und Datenanalyse eingesetzt.

t-SNE verstehen

Die Kernidee hinter t-SNE ist es, die lokale Struktur der Daten zu erhalten. Sie modelliert die Ähnlichkeit zwischen hochdimensionalen Datenpunkten als bedingte Wahrscheinlichkeiten und versucht dann, eine niedrigdimensionale Einbettung zu finden, die eine ähnliche Wahrscheinlichkeitsverteilung zwischen den abgebildeten Punkten ergibt. Im Gegensatz zu linearen Methoden wie der Hauptkomponentenanalyse (PCA) ist t-SNE nichtlinear und probabilistisch. Dadurch können komplexe Beziehungen erfasst werden, die der PCA möglicherweise entgehen, insbesondere wenn die Daten auf gekrümmten Mannigfaltigkeiten liegen. Die PCA ist jedoch besser darin, die globale Struktur und Varianz der Daten zu erhalten.

Der Algorithmus berechnet paarweise Ähnlichkeiten zwischen Punkten sowohl in hohen als auch in niedrigen Dimensionen. Er verwendet eine Gauß-Verteilung im hochdimensionalen Raum und eine t-Verteilung (genauer gesagt eine Student's t-Verteilung mit einem Freiheitsgrad) im niedrigdimensionalen Raum. Die Verwendung der t-Verteilung hilft, das "Crowding-Problem" (d. h. die Tendenz, Punkte in der Mitte der Karte zu verklumpen) zu mildern und ungleiche Punkte in der niedrigdimensionalen Karte besser zu trennen. Das Verfahren besteht darin, die Divergenz zwischen diesen beiden Verteilungen mithilfe des Gradientenabstiegs zu minimieren. Eine ausführliche technische Erklärung findest du in der Originalarbeit zu t-SNE.

Anwendungen in KI und ML

t-SNE ist in erster Linie eine Visualisierungstechnik, die von unschätzbarem Wert ist, wenn es darum geht, hochdimensionale Daten zu erforschen und zu verstehen, die von KI-Modellen erzeugt werden. Hier sind einige Beispiele:

Wichtige Überlegungen

Obwohl t-SNE sehr leistungsfähig ist, hat es Eigenschaften, die die Nutzer verstehen sollten:

  • Rechenaufwand: t-SNE kann rechenintensiv sein, vor allem bei sehr großen Datensätzen, da es die Berechnung paarweiser Ähnlichkeiten erfordert.
  • Empfindlichkeit der Hyperparameter: Die Ergebnisse hängen von den Hyperparametern ab, vor allem von der "Komplexität", die die Anzahl der lokalen Nachbarn für jeden Punkt beeinflusst. Oft ist es notwendig, die Hyperparameter richtig einzustellen. Implementierungen wie die von scikit-learn bieten Einstellmöglichkeiten für diese Parameter.
  • Interpretation: Die Größe der Cluster und die Abstände zwischen ihnen in der t-SNE-Darstellung entsprechen nicht immer direkt den tatsächlichen Clustergrößen oder Trennungen im ursprünglichen hochdimensionalen Raum. Er zeigt vor allem lokale Ähnlichkeiten und Gruppierungen auf. Es ist eher ein Werkzeug zur Erkundung als eine endgültige Clusteranalyse wie K-Means.

Zusammenfassend lässt sich sagen, dass t-SNE ein wertvolles Werkzeug im Werkzeugkasten der Künstlichen Intelligenz (KI) ist, um komplexe, hochdimensionale Datensätze zu visualisieren und eine Intuition für sie zu entwickeln, die andere Analysemethoden ergänzt.

Alles lesen