Glosario

Modelo de Markov Oculto (HMM)

Descubre los Modelos Ocultos de Markov (HMM), sus principios, sus aplicaciones en el reconocimiento del habla, la bioinformática y la IA, y cómo infieren estados ocultos.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Un Modelo de Markov Oculto (MMO) es un modelo estadístico utilizado para describir sistemas que transitan entre estados a lo largo del tiempo, en los que la secuencia de estados no es directamente observable (está "oculta"), pero puede inferirse a partir de una secuencia de salidas o emisiones observables. Los HMM son especialmente potentes para modelar datos secuenciales y series temporales en diversos dominios dentro de la Inteligencia Artificial (IA) y el Aprendizaje Automático (AM). Pertenecen a una clase de modelos conocidos como modelos gráficos probabilísticos.

Conceptos básicos

Los HMM se definen por dos componentes principales:

  1. Estados ocultos: Conjunto de estados no observables en los que puede encontrarse el sistema. El proceso transita entre estos estados según determinadas probabilidades. El supuesto central es la propiedad de Markov: la probabilidad de transición al siguiente estado sólo depende del estado actual, no de la secuencia de estados que lo precedieron.
  2. Observaciones (Emisiones): Conjunto de salidas o símbolos observables que genera o "emite" probabilísticamente cada estado oculto. La probabilidad de emitir una observación concreta sólo depende del estado oculto actual.

El modelo se caracteriza por:

  • Probabilidades de transición: La probabilidad de pasar de un estado oculto a otro.
  • Probabilidades de emisión: La probabilidad de observar una salida concreta dado que el sistema está en un estado oculto específico.
  • Probabilidades del estado inicial: La probabilidad de que el sistema comience en cada estado oculto.

Cómo funcionan los modelos de Markov ocultos

Trabajar con HMM suele implicar resolver tres problemas fundamentales, a menudo abordados mediante algoritmos específicos detallados en [tutoriales como el de Rabiner](https://web.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/tutorial on hmm and applications.pdf):

  1. Probabilidad: Cálculo de la probabilidad de una secuencia observada dados los parámetros del modelo. Esto ayuda a evaluar lo bien que un modelo se ajusta a los datos.
  2. Descodificación: Encontrar la secuencia más probable de estados ocultos que produjo una secuencia de observación dada (a menudo utilizando el algoritmo de Viterbi).
  3. Aprendizaje: Estimación de los parámetros del modelo (probabilidades de transición, emisión e inicial) a partir de un conjunto de secuencias observadas (a menudo mediante el algoritmo de Baum-Welch, un tipo de maximización de expectativas).

Aplicaciones en el mundo real

Los HMM se han aplicado con éxito en numerosos campos:

  1. Reconocimiento del habla: Los estados ocultos pueden representar fonemas (unidades básicas del sonido), mientras que las observaciones son características acústicas extraídas de la señal del habla. Los HMM modelan cómo los fonemas transicionan y producen sonidos, lo que permite a sistemas como CMU Sphinx convertir el lenguaje hablado en texto. Se trata de una aplicación clásica dentro del Procesamiento del Lenguaje Natural (PLN). Explora más sobre el Reconocimiento del Habla.
  2. Bioinformática (Búsqueda de genes): Los estados ocultos pueden representar regiones funcionales del ADN (por ejemplo, exones codificantes, intrones no codificantes), y las observaciones son los pares de bases del ADN (A, C, G, T). Los HMM ayudan a identificar estructuras genéticas dentro de secuencias largas de ADN, utilizadas por herramientas como HMMER y contribuyendo a recursos como la base de datos de genes del NCBI. Esto se relaciona con aplicaciones más amplias en el análisis de imágenes médicas, donde el reconocimiento de patrones es clave.

Otras aplicaciones son el etiquetado de partes del discurso en PNL, el reconocimiento de gestos en visión por ordenador y el análisis de series temporales financieras.

Comparación con conceptos afines

Es importante distinguir los HMM de otros modelos de secuencias:

  • Procesos de Decisión de Markov (MDP): Aunque ambos implican estados y transiciones, los HMM se centran en inferir estados ocultos a partir de observaciones. En cambio, los MDP se utilizan en el Aprendizaje por Refuerzo (RL) para modelar procesos de toma de decisiones en los que los estados suelen ser observables, y el objetivo es encontrar una política óptima (secuencia de acciones). Aprende más sobre los fundamentos del RL con recursos como los materiales introductorios de DeepMind.
  • Redes neuronales recurrentes (RNN): Tanto los HMM como las RNN (incluidas variantes como las LSTM) modelan datos secuenciales. Sin embargo, los HMM son modelos probabilísticos con estados y transiciones explícitos e interpretables basados en estructuras predefinidas. Las RNN, que forman parte del Aprendizaje Profundo (AD), aprenden representaciones de estado implícitas mediante conexiones de red y suelen ser más potentes para patrones complejos, pero menos interpretables. Entender las LSTM permite comprender los mecanismos de las RNN. Modelos como Ultralytics YOLO aprovechan la DL para tareas como el seguimiento de objetos, que también se ocupa de secuencias pero utiliza técnicas subyacentes diferentes.

Aunque los métodos de aprendizaje profundo más recientes suelen lograr resultados de vanguardia, los HMM siguen siendo valiosos por su interpretabilidad y eficacia, especialmente cuando los datos son limitados o se puede incorporar el conocimiento del dominio a la estructura del modelo. Las herramientas y plataformas como Ultralytics HUB suelen centrarse en modelos DL, pero comprender conceptos fundacionales como los HMM proporciona un contexto valioso en el panorama más amplio del ML.

Leer todo