Glossário

Modelo oculto de Markov (HMM)

Descobre os modelos de Markov ocultos (HMMs), os seus princípios, aplicações no reconhecimento da fala, bioinformática e IA, e como inferem estados ocultos.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Os modelos de Markov ocultos (HMM) são um tipo de modelo estatístico utilizado na aprendizagem automática para descrever sistemas que evoluem ao longo do tempo. Imagina um sistema em que se podem observar determinados resultados, mas os estados subjacentes que determinam esses resultados estão ocultos. Os HMMs são concebidos para inferir esses estados ocultos com base na sequência de resultados observados. Isto torna-os particularmente úteis em cenários em que os dados são sequenciais e o verdadeiro estado do sistema não é diretamente observável.

Conceitos fundamentais dos modelos ocultos de Markov

No coração de um HMM estão dois componentes-chave: estados ocultos e observações. Os estados ocultos são os factores não observáveis que influenciam o comportamento do sistema. Pensa neles como o funcionamento interno ou as condições que não são medidas diretamente. As observações, por outro lado, são os pontos de dados que podemos realmente ver ou medir, que estão probabilisticamente ligados aos estados ocultos.

Os HMMs funcionam segundo dois pressupostos fundamentais:

  • Pressuposto de Markov: O estado oculto atual depende apenas do estado oculto anterior e não de todo o histórico de estados. Esta propriedade "sem memória" simplifica o modelo e torna o cálculo viável. Por exemplo, na previsão do tempo usando um HMM, o tempo de hoje (estado oculto) depende apenas do tempo de ontem, não do tempo de uma semana atrás.
  • Pressuposto da Independência da Observação: A observação atual depende apenas do estado oculto atual e é independente de estados ocultos passados e de observações passadas, dado o estado oculto atual. Continuando com o exemplo da meteorologia, se vês chuva hoje (observação) depende apenas do estado meteorológico de hoje (estado oculto, por exemplo, "chuvoso", "solarengo") e não do estado meteorológico de ontem.

Estes pressupostos permitem-nos definir um HMM utilizando algumas distribuições de probabilidade chave:

  • Probabilidades de transição: Estas probabilidades definem a probabilidade de passar de um estado oculto para outro. Por exemplo, a probabilidade de passar de um estado "ensolarado" para um estado "nublado" no nosso exemplo meteorológico.
  • Probabilidades de emissão: Estas probabilidades definem a probabilidade de observares um determinado output dado um estado oculto. Por exemplo, a probabilidade de observares "chuva" quando o estado oculto é "chuvoso".
  • Probabilidades de estado inicial: Define as probabilidades de começar em cada um dos possíveis estados ocultos no início da sequência.

Para compreender o sistema, os HMMs resolvem três problemas principais:

  • Avalia: Dado um modelo e uma sequência de observações, calcula a probabilidade de essa sequência ser gerada pelo modelo. Esta questão é frequentemente resolvida utilizando o algoritmo Forward.
  • Descodificação: Dado um modelo e uma sequência de observações, encontra a sequência mais provável de estados ocultos que produziram as observações. O algoritmo de Viterbi é normalmente utilizado para este efeito.
  • Aprende: Dada uma sequência de observações, aprende os parâmetros do modelo (transição, emissão e probabilidades iniciais) que melhor explicam os dados observados. Para o efeito, é utilizado o algoritmo de Baum-Welch (uma forma de maximização da expetativa).

Aplicações dos modelos ocultos de Markov na IA

Os HMMs têm sido aplicados com sucesso em vários domínios da Inteligência Artificial, particularmente quando estão envolvidos dados sequenciais e processos ocultos. Eis alguns exemplos importantes:

  • Reconhecimento da fala: Uma das aplicações mais clássicas e bem sucedidas dos HMMs é nos sistemas de reconhecimento de fala. Na fala, os sinais acústicos (observações) são gerados pela sequência de fonemas ou palavras faladas (estados ocultos). Os HMMs são utilizados para modelar as relações probabilísticas entre os fonemas e as caraterísticas acústicas, permitindo aos sistemas transcrever a linguagem falada em texto. Os sistemas modernos de reconhecimento da fala utilizam frequentemente modelos de aprendizagem profunda mais complexos, mas os HMM desempenharam um papel fundamental neste domínio e ainda são utilizados em abordagens híbridas.
  • Bioinformática: Os HMMs são amplamente utilizados na bioinformática para analisar sequências biológicas, como as sequências de ADN e de proteínas. Por exemplo, na previsão de genes, a sequência de nucleótidos no ADN (observações) pode ser modelada para inferir as estruturas genéticas subjacentes (estados ocultos), tais como regiões codificantes e regiões não codificantes. Os HMMs podem identificar padrões e motivos nestas sequências, ajudando a compreender a função e a estrutura dos genes e das proteínas.

Para além destas aplicações principais, os HMMs podem ser encontrados em:

  • Processamento de linguagem natural (PNL): Para tarefas como a marcação de parte do discurso, em que as palavras de uma frase são observações e as etiquetas gramaticais subjacentes são estados ocultos. Podes saber mais sobre o Processamento de Linguagem Natural (PLN) e as suas diversas aplicações em IA.
  • Modelação financeira: Para analisar dados financeiros de séries temporais, em que os preços das acções observados são influenciados por regimes de mercado ocultos (por exemplo, mercado em alta, mercado em baixa). A análise de séries temporais é um aspeto crucial para compreender as tendências dos dados ao longo do tempo.
  • Reconhecimento de actividades: Na visão por computador e nos sistemas baseados em sensores, os HMMs podem reconhecer actividades humanas a partir de sequências de leituras de sensores ou de fotogramas de vídeo. Enquanto o Ultralytics YOLO se destaca na deteção de objectos em tempo real e na segmentação de imagens em fotogramas individuais, os HMMs podem acrescentar uma dimensão temporal para compreender sequências de acções.

Embora as técnicas mais recentes, como as redes neuronais recorrentes (RNN) e os transformadores, sejam atualmente dominantes em muitas tarefas de modelação de sequências devido à sua capacidade de captar dependências de longo alcance e de lidar com padrões mais complexos, os modelos de Markov ocultos continuam a ser uma ferramenta valiosa, especialmente quando se dá prioridade à interpretabilidade e à eficiência computacional, ou quando o pressuposto de Markov é uma aproximação razoável do sistema subjacente. Fornecem um quadro probabilístico para compreender dados sequenciais e inferir estruturas ocultas, tornando-os uma pedra angular no domínio da aprendizagem automática e da inteligência artificial.

Lê tudo