Glossaire

Modèle de Markov caché (HMM)

Découvre les modèles de Markov cachés (HMM), leurs principes, leurs applications dans la reconnaissance vocale, la bio-informatique et l'IA, et comment ils déduisent les états cachés.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Un modèle de Markov caché (HMM) est un modèle statistique utilisé pour décrire les systèmes qui passent d'un état à l'autre au fil du temps, où la séquence d'états n'est pas directement observable (elle est "cachée"), mais peut être déduite d'une séquence de sorties ou d'émissions observables. Les HMM sont particulièrement puissants pour modéliser les données séquentielles et les séries temporelles dans divers domaines de l'intelligence artificielle (AI) et de l'apprentissage automatique (ML). Ils appartiennent à une classe de modèles connus sous le nom de modèles graphiques probabilistes.

Concepts de base

Les HMM sont définis par deux composants principaux :

  1. États cachés : Ensemble d'états non observables dans lesquels le système peut se trouver. Le processus passe d'un état à l'autre en fonction de certaines probabilités. L'hypothèse de base est la propriété de Markov: la probabilité de passer à l'état suivant ne dépend que de l'état actuel, et non de la séquence d'états qui l'a précédé.
  2. Observations (émissions) : Un ensemble de sorties ou de symboles observables qui sont générés ou "émis" de manière probabiliste par chaque état caché. La probabilité d'émettre une observation particulière ne dépend que de l'état caché actuel.

Le modèle se caractérise par :

  • Probabilités de transition : La probabilité de passer d'un état caché à un autre.
  • Probabilités d'émission : La probabilité d'observer une sortie particulière étant donné que le système se trouve dans un état caché spécifique.
  • Probabilités de l'état initial : La probabilité que le système commence dans chaque état caché.

Comment fonctionnent les modèles de Markov cachés

Travailler avec des HMM implique généralement de résoudre trois problèmes fondamentaux, souvent traités par des algorithmes spécifiques détaillés dans [des tutoriels comme celui de Rabiner] (https://web.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/tutorial on hmm and applications.pdf) :

  1. Vraisemblance : Calcul de la probabilité d'une séquence observée compte tenu des paramètres du modèle. Cela permet d'évaluer dans quelle mesure un modèle s'adapte aux données.
  2. Décodage : Trouver la séquence la plus probable d'états cachés qui a produit une séquence d'observation donnée (souvent à l'aide de l'algorithme de Viterbi).
  3. Apprentissage : Estimation des paramètres du modèle (probabilités de transition, d'émission et initiales) à partir d'un ensemble de séquences observées (souvent à l'aide de l'algorithme de Baum-Welch, un type de maximisation des attentes).

Applications dans le monde réel

Les HMM ont été utilisés avec succès dans de nombreux domaines :

  1. Reconnaissance de la parole : Les états cachés peuvent représenter des phonèmes (unités de base du son), tandis que les observations sont des caractéristiques acoustiques extraites du signal vocal. Les HMM modélisent la façon dont les phonèmes se transforment et produisent des sons, ce qui permet à des systèmes tels que CMU Sphinx de convertir la langue parlée en texte. Il s'agit d'une application classique du traitement du langage naturel (NLP). En savoir plus sur la reconnaissance vocale.
  2. Bioinformatique (recherche de gènes) : Les états cachés peuvent représenter des régions fonctionnelles de l'ADN (exons codants, introns non codants), et les observations sont les paires de bases de l'ADN (A, C, G, T). Les HMM permettent d'identifier les structures des gènes dans les longues séquences d'ADN, utilisées par des outils tels que HMMER et contribuant à des ressources telles que la base de données Gene du NCBI. Ceci est lié à des applications plus larges dans l'analyse d'images médicales où la reconnaissance des formes est essentielle.

Parmi les autres applications, on peut citer l'étiquetage des parties du discours dans le cadre du NLP, la reconnaissance des gestes dans le cadre de la vision par ordinateur et l'analyse des séries temporelles financières.

Comparaison avec des concepts apparentés

Il est important de distinguer les HMM des autres modèles de séquence :

  • Processus de décision de Markov (PDM) : Bien que les deux impliquent des états et des transitions, les HMM se concentrent sur l'inférence d'états cachés à partir d'observations. En revanche, les MDP sont utilisés dans l'apprentissage par renforcement (RL) pour modéliser les processus de prise de décision où les états sont généralement observables et où l'objectif est de trouver une politique optimale (séquence d'actions). Pour en savoir plus sur les principes fondamentaux de l'apprentissage par renforcement, tu peux consulter des ressources telles que les documents d'introduction de DeepMind.
  • Réseaux neuronaux récurrents (RNN) : Les HMM et les RNN (y compris les variantes comme les LSTM) modélisent tous deux des données séquentielles. Cependant, les HMM sont des modèles probabilistes avec des états et des transitions explicites et interprétables, basés sur des structures prédéfinies. Les RNN, qui font partie du Deep Learning (DL), apprennent des représentations d'état implicites grâce aux connexions du réseau et sont souvent plus puissants pour les modèles complexes, mais moins interprétables. Comprendre les LSTM permet de mieux comprendre les mécanismes des RNN. Des modèles comme Ultralytics YOLO tirent parti du DL pour des tâches telles que le suivi d'objets, qui traite également des séquences mais utilise des techniques sous-jacentes différentes.

Alors que les nouvelles méthodes d'apprentissage profond permettent souvent d'obtenir des résultats de pointe, les HMMs restent précieux pour leur interprétabilité et leur efficacité, en particulier lorsque les données sont limitées ou que les connaissances du domaine peuvent être incorporées dans la structure du modèle. Les outils et les plateformes comme Ultralytics HUB se concentrent souvent sur les modèles DL, mais la compréhension des concepts fondamentaux comme les HMM fournit un contexte précieux dans le paysage ML plus large.

Tout lire