Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Скрытая Марковская Модель (Hidden Markov Model, HMM)

Изучите скрытые марковские модели (HMM) для статистического искусственного интеллекта. Узнайте, как HMM работают с Ultralytics для распознавания действий, анализа последовательностей и временной логики.

Скрытая марковская модель (HMM) — это статистическая структура, используемая для моделирования систем, в которых внутренний процесс не виден напрямую (отсюда и название «скрытый»), но может быть выведен на основе последовательности наблюдаемых событий. Хотя современное глубокое обучение развилось до уровня обработки сложных последовательностей, HMM остается основополагающим концептом в статистическом ИИ и теории вероятности. Она особенно эффективна для анализа дан ных временных рядов, где порядок событий обеспечивает важный контекст, опираясь на основной принцип, что вероятность будущего состояния зависит исключительно от текущего состояния, а не от предшествующей ему истории.

Основные механизмы HMM

Чтобы понять, как функционирует HMM, необходимо различать два отдельных слоя модели: невидимые состояния и видимые выходы. Модель предполагает, что система переходит между скрытыми состояниями в соответствии с определенными вероятностями, выдавая наблюдение на каждом шаге.

HMM определяется набором параметров, которые управляют этими переходами и эмиссиями:

  • Скрытые состояния: они представляют собой основополагающую реальность системы в данный момент времени. В речевой модели скрытое состояние может представлять собой конкретную фонему или слово.
  • Наблюдаемые события: это данные точки, фактически собранные датчиками или входами. В примере с речью наблюдением будет звуковая волна или данные спектрограммы.
  • Вероятности перехода: эта матрица описывает вероятность перехода из одного скрытого состояния в другое. Например, вероятность изменения погоды с «дождливой» на «солнечную».
  • Вероятности эмиссии: Они определяют вероятность наблюдения конкретного явления при текущем скрытом состоянии.
  • Начальные вероятности: распределение, определяющее состояние, в котором система с наибольшей вероятностью начнет работу.

Обучение HMM обычно включает в себя алгоритм Баума-Уэлча для оценки этих параметров на основе обучающих данных. После обучения алгоритм Витерби обычно используется для декодирования наиболее вероятной последовательности скрытых состояний из нового набора наблюдений.

HMM против других моделей последовательностей

Хотя HMM имеют сходство с другими инструментами обработки последовательностей, они значительно отличаются по архитектуре и применению:

  • HMM против рекуррентных нейронных сетей (RNN): RNN и сети с длинной краткосрочной памятью (LSTM) — это модели глубокого обучения, которые могут улавливать долгосрочные зависимости и нелинейные паттерны, тогда как HMM — это более простые вероятностные модели, ограниченные предположением Маркова (краткосрочная память). Однако HMM требуют значительно меньше данных и гораздо более интерпретируемы.
  • HMM против фильтра Калмана (KF): Оба используются для оценки состояния. Однако фильтры Калмана предназначены для непрерывных состояний (например, отслеживание точного местоположения движущегося автомобиля), а HMM используются для дискретных состояний (например, определение, находится ли автомобиль в «парковочном», «движущемся» или «остановленном» состоянии).

Применение в реальном мире

Несмотря на рост популярности глубокого обучения (DL), скрытые модели Маркова по-прежнему широко используются в сценариях, требующих вероятностного вывода по последовательностям.

Распознавание речи и рукописного текста

Исторически HMM были основой систем распознавания речи. В этом контексте произнесенные слова являются «скрытыми» состояниями, а аудиосигналы, записанные микрофоном, — наблюдениями. HMM помогают определить наиболее вероятную последовательность слов, которая произвела аудиосигнал. Аналогичным образом, они помогают расшифровывать курсивный почерк, моделируя переход между штрихами символов.

Анализ биологических последовательностей

В области биоинформатики HMM имеют решающее значение для прогнозирования генов и выравнивания белков. Они анализируют последовательности ДНК или аминокислот для идентификации функциональных областей, таких как гены в геноме. «Скрытые» состояния могут представлять кодирующие или некодирующие области, в то время как конкретные нуклеотиды (A, C, G, T) действуют как наблюдения.

Распознавание действий в компьютерном зрении

В современном компьютерном зрении HMM можно комбинировать с такими моделями, как YOLO26 для распознавания действий. В то время как YOLO объекты или позы в отдельных кадрах, HMM может анализировать последовательность этих поз во времени для classify действий, таких как «ходьба», «бег» или «падение».

Интеграция видения и анализа состояния

Для разработчиков, использующих Ultralytics для управления наборами данных и моделями, понимание последовательной логики имеет жизненно важное значение. Визуальная модель предоставляет исходные наблюдения (обнаружения), которые затем могут быть введены в модель пространства состояний, такую как HMM, для вывода временного контекста.

Следующий пример демонстрирует, как сгенерировать последовательность наблюдений с помощью оценки позы YOLO26. Эти ключевые точки могут служить в качестве входных данных «наблюдаемых событий» для последующего HMM или аналогичной логики для classify во времени.

from ultralytics import YOLO

# Load the YOLO26n-pose model for efficient keypoint detection
model = YOLO("yolo26n-pose.pt")

# Run inference on a video source (the 'observable' sequence)
# stream=True creates a generator for memory efficiency
results = model.predict(source="path/to/video.mp4", stream=True)

# Iterate through frames to extract observations
for result in results:
    # Each 'keypoints' object is an observation for a potential HMM
    keypoints = result.keypoints.xyn.cpu().numpy()

    if keypoints.size > 0:
        print(f"Observation (Normalized Keypoints): {keypoints[0][:5]}...")
        # In a full pipeline, these points would be fed into an HMM decoder

Важность в современном ИИ

Хотя трансформеры и большие языковые модели (LLM) превзошли HMM в таких задачах, как обработка естественного языка (NLP), HMM по-прежнему актуальны в пограничных вычислениях и средах с низкой задержкой. Их вычислительная эффективность делает их идеальными для систем с ограниченными ресурсами, где интенсивные GPU невозможно. Кроме того, поскольку они основаны на прозрачных матрицах вероятностей, они обеспечивают более высокую наблюдаемость по сравнению с «черным ящиком» многих нейронных сетей.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас