Glossar

Diffusionsmodelle

Entdecke, wie Diffusionsmodelle die generative KI revolutionieren, indem sie realistische Bilder, Videos und Daten mit unübertroffener Detailtreue und Stabilität erzeugen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Diffusionsmodelle sind eine Klasse generativer Modelle des maschinellen Lernens (ML), die aufgrund ihrer Fähigkeit, qualitativ hochwertige, vielfältige Stichproben zu erzeugen, insbesondere im Bereich des Computer Vision (CV), große Aufmerksamkeit erlangt haben. Inspiriert von Konzepten aus der Thermodynamik, fügen diese Modelle in einem "Vorwärtsprozess" systematisch Rauschen zu den Daten (z. B. einem Bild) hinzu, bis diese zu reinem Rauschen werden, und lernen dann, diesen Prozess umzukehren. Beim "umgekehrten Prozess" wird ein neuronales Netz trainiert, um das Rauschen schrittweise zu entfernen. Dabei wird von einem zufälligen Rauschen ausgegangen und dieses schrittweise verfeinert, bis ein realistisches Datenmuster erzeugt wird.

Wie Diffusionsmodelle funktionieren

Die Kernidee umfasst zwei Stufen:

  1. Vorwärts-Diffusionsprozess: In dieser Phase wird ein ursprüngliches Datenmuster (z. B. ein Bild) genommen und über viele Schritte hinweg eine kleine Menge Gauß'sches Rauschen hinzugefügt. Dieser Prozess wird so lange fortgesetzt, bis das Originalbild nicht mehr von zufälligem Rauschen zu unterscheiden ist. Diese Phase ist fix und beinhaltet kein Lernen.
  2. Umgekehrter Entrauschungsprozess: Hier findet das Lernen statt. Ein Modell, in der Regel ein ausgeklügeltes neuronales Netz wie ein U-Netz, wird so trainiert, dass es das bei jedem Schritt des Vorwärtsprozesses hinzugefügte Rauschen vorhersagt. Bei der Generierung beginnt das Modell mit reinem Rauschen und verwendet seine gelernten Vorhersagen, um das Rauschen über die gleiche Anzahl von Schritten schrittweise zu entfernen, was die Diffusion effektiv umkehrt und eine neue Datenprobe erzeugt. Diese schrittweise Verfeinerung ermöglicht es, sehr detaillierte Ergebnisse zu erzeugen.

Vergleich mit anderen generativen Modellen

Diffusionsmodelle unterscheiden sich deutlich von anderen beliebten generativen Ansätzen wie Generative Adversarial Networks (GANs). Während bei GANs ein Generator und ein Diskriminator miteinander konkurrieren, was oft zu einer Trainingsinstabilität führt, weisen Diffusionsmodelle eine stabilere Trainingsdynamik auf. Im Vergleich zu GANs erreichen sie oft eine bessere Stichprobenvielfalt und -qualität, obwohl sie in der Regel mehr Rechenschritte bei der Inferenz (Generierung) benötigen und dadurch langsamer sind. Im Gegensatz zu Variational Autoencoders (VAEs), die einen komprimierten latenten Raum erlernen, arbeiten Diffusionsmodelle direkt im Datenraum durch den Rausch- und Entrauschungsprozess. Eine beliebte Variante ist die Stable Diffusion, die für ihre Effizienz und hohe Qualität der Ergebnisse bekannt ist.

Anwendungen von Diffusionsmodellen

Diffusionsmodelle eignen sich besonders gut für Aufgaben, die eine sehr realitätsnahe Erstellung erfordern:

  • Text-zu-Bild-Synthese: Modelle wie Imagen vonGoogle und DALL-E 2 von OpenAI nutzen Diffusionstechniken, um detaillierte Bilder auf der Grundlage von Textbeschreibungen zu erzeugen. Die Nutzer/innen können Anweisungen geben, und das Modell erstellt die entsprechenden Bilder.
  • Medizinische Bildanalyse: Sie können für Aufgaben wie die Erstellung synthetischer medizinischer Bilder zur Erweiterung der Trainingsdaten, die Superauflösung von Bildern zur Verbesserung der Scanqualität oder sogar die Erkennung von Anomalien durch das Erlernen der Verteilung von gesundem Gewebe verwendet werden. Die Erstellung realistischer MRT- oder CT-Scans kann zum Beispiel dabei helfen, KI-Diagnosemodelle zu trainieren, ohne sich ausschließlich auf begrenzte Patientendaten verlassen zu müssen, und Aufgaben wie die Bildsegmentierung für Tumore ergänzen.
  • Andere Bereiche: Die Forschung erforscht ihren Einsatz bei der Audio- und Videogenerierung(wie Google Veo), beim Moleküldesign für die Arzneimittelforschung und bei der Datenkompression.

Frameworks wie PyTorch und Bibliotheken wie die Hugging Face Diffusers-Bibliothek bieten Werkzeuge und vortrainierte Modelle, die es Entwicklern erleichtern, mit Diffusionsmodellen zu experimentieren und sie einzusetzen. Ihre Fähigkeit, vielfältige und qualitativ hochwertige Daten zu generieren, macht sie zu einem mächtigen Werkzeug in der laufenden Entwicklung der generativen KI.

Alles lesen