Glosario

Modelo de Markov Oculto (HMM)

Descubre los Modelos Ocultos de Markov (HMM), sus principios, sus aplicaciones en el reconocimiento del habla, la bioinformática y la IA, y cómo infieren estados ocultos.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Los modelos de Markov ocultos (HMM) son un tipo de modelo estadístico utilizado en el aprendizaje automático para describir sistemas que evolucionan con el tiempo. Imagina un sistema en el que puedes observar determinadas salidas, pero los estados subyacentes que conducen a esas salidas están ocultos. Los HMM están diseñados para inferir estos estados ocultos basándose en la secuencia de resultados observados. Esto los hace especialmente útiles en situaciones en las que los datos son secuenciales y el verdadero estado del sistema no es directamente observable.

Conceptos básicos de los modelos de Markov ocultos

En el corazón de un HMM hay dos componentes clave: los estados ocultos y las observaciones. Los estados ocultos son los factores no observables que influyen en el comportamiento del sistema. Piensa en ellos como el funcionamiento interno o las condiciones que no se miden directamente. Las observaciones, por otro lado, son los puntos de datos que podemos ver o medir, que están vinculados probabilísticamente a los estados ocultos.

Los HMM funcionan bajo dos supuestos fundamentales:

  • Suposición de Markov: El estado oculto actual sólo depende del estado oculto anterior, no de todo el historial de estados. Esta propiedad "sin memoria" simplifica el modelo y hace factible el cálculo. Por ejemplo, en la predicción meteorológica mediante un HMM, el tiempo de hoy (estado oculto) sólo depende del tiempo de ayer, no del tiempo de hace una semana.
  • Suposición de independencia de la observación: La observación actual sólo depende del estado oculto actual, y es independiente de los estados ocultos pasados y de las observaciones pasadas dado el estado oculto actual. Siguiendo con el ejemplo del tiempo, que veas llover hoy (observación) sólo depende del estado del tiempo de hoy (estado oculto, por ejemplo, "lluvioso", "soleado"), y no del estado del tiempo de ayer.

Estos supuestos nos permiten definir un HMM utilizando unas pocas distribuciones de probabilidad clave:

  • Probabilidades de transición: Estas probabilidades definen la probabilidad de pasar de un estado oculto a otro. Por ejemplo, la probabilidad de pasar de un estado "soleado" a un estado "nublado" en nuestro ejemplo meteorológico.
  • Probabilidades de emisión: Estas probabilidades definen la probabilidad de observar una salida concreta dado un estado oculto. Por ejemplo, la probabilidad de observar "lluvia" cuando el estado oculto es "lluvioso".
  • Probabilidades del estado inicial: Definen las probabilidades de comenzar en cada uno de los posibles estados ocultos al principio de la secuencia.

Para comprender el sistema, los HMM resuelven tres problemas principales:

  • Evaluación: Dado un modelo y una secuencia de observación, calcula la probabilidad de que esa secuencia sea generada por el modelo. Suele resolverse mediante el algoritmo Forward.
  • Descodificación: Dado un modelo y una secuencia de observación, encuentra la secuencia más probable de estados ocultos que produjeron las observaciones. Para ello se suele utilizar el algoritmo de Viterbi.
  • Aprendizaje: Dada una secuencia de observación, aprende los parámetros del modelo (probabilidades de transición, emisión e inicial) que mejor explican los datos observados. Para ello se utiliza el algoritmo de Baum-Welch (una forma de maximización de expectativas).

Aplicaciones de los modelos de Markov ocultos en la IA

Los HMM se han aplicado con éxito en diversos campos de la Inteligencia Artificial, sobre todo cuando intervienen datos secuenciales y procesos ocultos. He aquí un par de ejemplos destacados:

  • Reconocimiento del habla: Una de las aplicaciones más clásicas y exitosas de los HMM es en los sistemas de reconocimiento del habla. En el habla, las señales acústicas (observaciones) son generadas por la secuencia de fonemas o palabras pronunciadas (estados ocultos). Los HMM se utilizan para modelar las relaciones probabilísticas entre los fonemas y las características acústicas, lo que permite a los sistemas transcribir el lenguaje hablado en texto. Los sistemas modernos de reconocimiento del habla suelen utilizar modelos de aprendizaje profundo más complejos, pero los HMM desempeñaron un papel fundacional en este campo, y aún se utilizan en enfoques híbridos.
  • Bioinformática: Los HMM se utilizan ampliamente en bioinformática para analizar secuencias biológicas como las de ADN y proteínas. Por ejemplo, en la predicción de genes, la secuencia de nucleótidos en el ADN (observaciones) puede modelarse para inferir las estructuras subyacentes del gen (estados ocultos), como las regiones codificantes y las regiones no codificantes. Los HMM pueden identificar patrones y motivos en estas secuencias, ayudando a comprender la función y la estructura de los genes y las proteínas.

Más allá de estas aplicaciones básicas, los HMM se pueden encontrar en:

  • Procesamiento del Lenguaje Natural (PLN): Para tareas como el etiquetado de partes del discurso, donde las palabras de una frase son observaciones y las etiquetas gramaticales subyacentes son estados ocultos. Puedes explorar más sobre el Procesamiento del Lenguaje Natural (PLN) y sus diversas aplicaciones en la IA.
  • Modelización financiera: Para analizar datos financieros de series temporales, en los que los precios de las acciones observados están influidos por regímenes de mercado ocultos (por ejemplo, mercado alcista, mercado bajista). El análisis de series temporales es un aspecto crucial para comprender las tendencias de los datos a lo largo del tiempo.
  • Reconocimiento de actividades: En visión por ordenador y sistemas basados en sensores, los HMM pueden reconocer actividades humanas a partir de secuencias de lecturas de sensores o fotogramas de vídeo. Mientras que Ultralytics YOLO destaca en la detección de objetos en tiempo real y la segmentación de imágenes en fotogramas individuales, los HMM pueden añadir una dimensión temporal para comprender secuencias de acciones.

Aunque las técnicas más recientes, como las Redes Neuronales Recurrentes (RNN) y los Transformadores, dominan ahora muchas tareas de modelado de secuencias debido a su capacidad para captar dependencias de mayor alcance y manejar patrones más complejos, los Modelos de Markov Ocultos siguen siendo una herramienta valiosa, sobre todo cuando se priorizan la interpretabilidad y la eficiencia computacional, o cuando la suposición de Markov es una aproximación razonable del sistema subyacente. Proporcionan un marco probabilístico para comprender los datos secuenciales e inferir estructuras ocultas, lo que los convierte en una piedra angular en el campo del aprendizaje automático y la inteligencia artificial.

Leer todo