Glossar

Hidden Markov Model (HMM)

Entdecke Hidden Markov Modelle (HMMs), ihre Prinzipien, Anwendungen in der Spracherkennung, Bioinformatik und KI und wie sie versteckte Zustände ableiten.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Ein Hidden Markov Model (HMM) ist ein statistisches Modell, das zur Beschreibung von Systemen verwendet wird, die im Laufe der Zeit zwischen verschiedenen Zuständen wechseln, wobei die Abfolge der Zustände nicht direkt beobachtbar ist (sie ist "versteckt"), sondern aus einer Abfolge beobachtbarer Ausgaben oder Emissionen abgeleitet werden kann. HMMs sind besonders leistungsfähig bei der Modellierung von sequentiellen Daten und Zeitreihen in verschiedenen Bereichen der Künstlichen Intelligenz (KI) und des Maschinellen Lernens (ML). Sie gehören zu einer Klasse von Modellen, die als probabilistische grafische Modelle bekannt sind.

Kernkonzepte

HMMs werden durch zwei Hauptkomponenten definiert:

  1. Verborgene Zustände: Eine Reihe von unbeobachtbaren Zuständen, in denen sich das System befinden kann. Der Prozess wechselt zwischen diesen Zuständen nach bestimmten Wahrscheinlichkeiten. Die wichtigste Annahme ist die Markov-Eigenschaft: Die Wahrscheinlichkeit, in den nächsten Zustand zu wechseln, hängt nur vom aktuellen Zustand ab, nicht von der Abfolge der vorherigen Zustände.
  2. Beobachtungen (Emissionen): Eine Reihe von beobachtbaren Ausgaben oder Symbolen, die von jedem verborgenen Zustand probabilistisch erzeugt oder "emittiert" werden. Die Wahrscheinlichkeit, eine bestimmte Beobachtung auszusenden, hängt nur vom aktuellen verborgenen Zustand ab.

Das Modell ist gekennzeichnet durch:

  • Übergangswahrscheinlichkeiten: Die Wahrscheinlichkeit, von einem verborgenen Zustand in einen anderen zu wechseln.
  • Emissionswahrscheinlichkeiten: Die Wahrscheinlichkeit, eine bestimmte Ausgabe zu beobachten, wenn sich das System in einem bestimmten verborgenen Zustand befindet.
  • Anfangszustandswahrscheinlichkeiten: Die Wahrscheinlichkeit, dass das System in jedem verborgenen Zustand startet.

Wie Hidden Markov Modelle funktionieren

Bei der Arbeit mit HMMs geht es in der Regel darum, drei grundlegende Probleme zu lösen, die oft durch spezielle Algorithmen gelöst werden, die in [Tutorials wie dem von Rabiner] (https://web.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/tutorial on hmm and applications.pdf) beschrieben werden:

  1. Likelihood: Die Berechnung der Wahrscheinlichkeit einer beobachteten Sequenz in Abhängigkeit von den Modellparametern. Dies hilft zu beurteilen, wie gut ein Modell zu den Daten passt.
  2. Dekodierung: Die wahrscheinlichste Abfolge versteckter Zustände finden, die zu einer bestimmten Beobachtungssequenz geführt hat (oft mithilfe des Viterbi-Algorithmus).
  3. Lernen: Schätzen der Modellparameter (Übergangs-, Emissions- und Anfangswahrscheinlichkeiten) aus einer Reihe von beobachteten Sequenzen (oft mithilfe des Baum-Welch-Algorithmus, einer Art Erwartungsmaximierung).

Anwendungen in der realen Welt

HMMs wurden bereits in zahlreichen Bereichen erfolgreich eingesetzt:

  1. Erkennung von Sprache: Ausgeblendete Zustände können Phoneme (Grundeinheiten des Klangs) darstellen, während Beobachtungen akustische Merkmale sind, die aus dem Sprachsignal extrahiert werden. HMMs modellieren, wie Phoneme ineinander übergehen und Töne erzeugen, und ermöglichen es Systemen wie CMU Sphinx, gesprochene Sprache in Text umzuwandeln. Dies ist eine klassische Anwendung in der natürlichen Sprachverarbeitung (NLP). Erfahre mehr über Spracherkennung.
  2. Bioinformatik (Gene Finding): Versteckte Zustände können funktionale DNA-Regionen darstellen (z. B. kodierende Exons, nicht kodierende Introns), und Beobachtungen sind die DNA-Basenpaare (A, C, G, T). HMMs helfen dabei, Genstrukturen in langen DNA-Sequenzen zu identifizieren. Sie werden von Tools wie HMMER genutzt und tragen zu Ressourcen wie der NCBI Gendatenbank bei. Dies bezieht sich auf breitere Anwendungen in der medizinischen Bildanalyse, wo Mustererkennung der Schlüssel ist.

Weitere Anwendungen sind das Part-of-Speech-Tagging im NLP, die Gestenerkennung im Computer Vision und die Analyse von Finanzzeitreihen.

Vergleich mit verwandten Konzepten

Es ist wichtig, HMMs von anderen Sequenzmodellen zu unterscheiden:

  • Markov Decision Processes (MDPs): Während beide Zustände und Übergänge beinhalten, konzentrieren sich HMMs darauf, verborgene Zustände aus Beobachtungen abzuleiten. Im Gegensatz dazu werden MDPs beim Reinforcement Learning (RL) verwendet, um Entscheidungsprozesse zu modellieren, bei denen die Zustände in der Regel beobachtbar sind und das Ziel darin besteht, eine optimale Strategie (Abfolge von Aktionen) zu finden. Erfahre mehr über die Grundlagen des Reinforcement Learning, z. B. in den Einführungsmaterialien von DeepMind.
  • Rekurrente Neuronale Netze (RNNs): Sowohl HMMs als auch RNNs (einschließlich Varianten wie LSTMs) modellieren sequenzielle Daten. HMMs sind jedoch probabilistische Modelle mit expliziten, interpretierbaren Zuständen und Übergängen, die auf vordefinierten Strukturen basieren. RNNs, die Teil des Deep Learning (DL) sind, lernen implizite Zustandsrepräsentationen durch Netzwerkverbindungen und sind oft leistungsfähiger für komplexe Muster, aber weniger interpretierbar. Wenn du LSTMs verstehst, bekommst du einen Einblick in die Mechanismen von RNNs. Modelle wie Ultralytics YOLO nutzen DL für Aufgaben wie die Objektverfolgung, die ebenfalls mit Sequenzen arbeitet, aber andere zugrunde liegende Techniken verwendet.

Während neuere Deep-Learning-Methoden oft State-of-the-Art-Ergebnisse erzielen, bleiben HMMs aufgrund ihrer Interpretierbarkeit und Effektivität wertvoll, insbesondere wenn die Daten begrenzt sind oder Fachwissen in die Modellstruktur einfließen kann. Tools und Plattformen wie Ultralytics HUB konzentrieren sich oft auf DL-Modelle, aber das Verständnis grundlegender Konzepte wie HMMs bietet einen wertvollen Kontext in der breiteren ML-Landschaft.

Alles lesen