Un modèle de Markov caché (HMM) est un modèle statistique utilisé pour décrire les systèmes qui passent d'un état à l'autre au fil du temps, où la séquence d'états n'est pas directement observable (elle est "cachée"), mais peut être déduite d'une séquence de sorties ou d'émissions observables. Les HMM sont particulièrement puissants pour modéliser les données séquentielles et les séries temporelles dans divers domaines de l'intelligence artificielle (AI) et de l'apprentissage automatique (ML). Ils appartiennent à une classe de modèles connus sous le nom de modèles graphiques probabilistes.
Concepts de base
Les HMM sont définis par deux composants principaux :
- États cachés : Ensemble d'états non observables dans lesquels le système peut se trouver. Le processus passe d'un état à l'autre en fonction de certaines probabilités. L'hypothèse de base est la propriété de Markov: la probabilité de passer à l'état suivant ne dépend que de l'état actuel, et non de la séquence d'états qui l'a précédé.
- Observations (émissions) : Un ensemble de sorties ou de symboles observables qui sont générés ou "émis" de manière probabiliste par chaque état caché. La probabilité d'émettre une observation particulière ne dépend que de l'état caché actuel.
Le modèle se caractérise par :
- Probabilités de transition : La probabilité de passer d'un état caché à un autre.
- Probabilités d'émission : La probabilité d'observer une sortie particulière étant donné que le système se trouve dans un état caché spécifique.
- Probabilités de l'état initial : La probabilité que le système commence dans chaque état caché.
Applications dans le monde réel
Les HMM ont été utilisés avec succès dans de nombreux domaines :
- Reconnaissance de la parole : Les états cachés peuvent représenter des phonèmes (unités de base du son), tandis que les observations sont des caractéristiques acoustiques extraites du signal vocal. Les HMM modélisent la façon dont les phonèmes se transforment et produisent des sons, ce qui permet à des systèmes tels que CMU Sphinx de convertir la langue parlée en texte. Il s'agit d'une application classique du traitement du langage naturel (NLP). En savoir plus sur la reconnaissance vocale.
- Bioinformatique (recherche de gènes) : Les états cachés peuvent représenter des régions fonctionnelles de l'ADN (exons codants, introns non codants), et les observations sont les paires de bases de l'ADN (A, C, G, T). Les HMM permettent d'identifier les structures des gènes dans les longues séquences d'ADN, utilisées par des outils tels que HMMER et contribuant à des ressources telles que la base de données Gene du NCBI. Ceci est lié à des applications plus larges dans l'analyse d'images médicales où la reconnaissance des formes est essentielle.
Parmi les autres applications, on peut citer l'étiquetage des parties du discours dans le cadre du NLP, la reconnaissance des gestes dans le cadre de la vision par ordinateur et l'analyse des séries temporelles financières.
Comparaison avec des concepts apparentés
Il est important de distinguer les HMM des autres modèles de séquence :
- Processus de décision de Markov (PDM) : Bien que les deux impliquent des états et des transitions, les HMM se concentrent sur l'inférence d'états cachés à partir d'observations. En revanche, les MDP sont utilisés dans l'apprentissage par renforcement (RL) pour modéliser les processus de prise de décision où les états sont généralement observables et où l'objectif est de trouver une politique optimale (séquence d'actions). Pour en savoir plus sur les principes fondamentaux de l'apprentissage par renforcement, tu peux consulter des ressources telles que les documents d'introduction de DeepMind.
- Réseaux neuronaux récurrents (RNN) : Les HMM et les RNN (y compris les variantes comme les LSTM) modélisent tous deux des données séquentielles. Cependant, les HMM sont des modèles probabilistes avec des états et des transitions explicites et interprétables, basés sur des structures prédéfinies. Les RNN, qui font partie du Deep Learning (DL), apprennent des représentations d'état implicites grâce aux connexions du réseau et sont souvent plus puissants pour les modèles complexes, mais moins interprétables. Comprendre les LSTM permet de mieux comprendre les mécanismes des RNN. Des modèles comme Ultralytics YOLO tirent parti du DL pour des tâches telles que le suivi d'objets, qui traite également des séquences mais utilise des techniques sous-jacentes différentes.
Alors que les nouvelles méthodes d'apprentissage profond permettent souvent d'obtenir des résultats de pointe, les HMMs restent précieux pour leur interprétabilité et leur efficacité, en particulier lorsque les données sont limitées ou que les connaissances du domaine peuvent être incorporées dans la structure du modèle. Les outils et les plateformes comme Ultralytics HUB se concentrent souvent sur les modèles DL, mais la compréhension des concepts fondamentaux comme les HMM fournit un contexte précieux dans le paysage ML plus large.
Comment fonctionnent les modèles de Markov cachés
Travailler avec des HMM implique généralement de résoudre trois problèmes fondamentaux, souvent traités par des algorithmes spécifiques détaillés dans [des tutoriels comme celui de Rabiner] (https://web.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/tutorial on hmm and applications.pdf) :