Изучите скрытые марковские модели (HMM) для статистического искусственного интеллекта. Узнайте, как HMM работают с Ultralytics для распознавания действий, анализа последовательностей и временной логики.
Скрытая марковская модель (HMM) — это статистическая структура, используемая для моделирования систем, в которых внутренний процесс не виден напрямую (отсюда и название «скрытый»), но может быть выведен на основе последовательности наблюдаемых событий. Хотя современное глубокое обучение развилось до уровня обработки сложных последовательностей, HMM остается основополагающим концептом в статистическом ИИ и теории вероятности. Она особенно эффективна для анализа дан ных временных рядов, где порядок событий обеспечивает важный контекст, опираясь на основной принцип, что вероятность будущего состояния зависит исключительно от текущего состояния, а не от предшествующей ему истории.
Чтобы понять, как функционирует HMM, необходимо различать два отдельных слоя модели: невидимые состояния и видимые выходы. Модель предполагает, что система переходит между скрытыми состояниями в соответствии с определенными вероятностями, выдавая наблюдение на каждом шаге.
HMM определяется набором параметров, которые управляют этими переходами и эмиссиями:
Обучение HMM обычно включает в себя алгоритм Баума-Уэлча для оценки этих параметров на основе обучающих данных. После обучения алгоритм Витерби обычно используется для декодирования наиболее вероятной последовательности скрытых состояний из нового набора наблюдений.
Хотя HMM имеют сходство с другими инструментами обработки последовательностей, они значительно отличаются по архитектуре и применению:
Несмотря на рост популярности глубокого обучения (DL), скрытые модели Маркова по-прежнему широко используются в сценариях, требующих вероятностного вывода по последовательностям.
Исторически HMM были основой систем распознавания речи. В этом контексте произнесенные слова являются «скрытыми» состояниями, а аудиосигналы, записанные микрофоном, — наблюдениями. HMM помогают определить наиболее вероятную последовательность слов, которая произвела аудиосигнал. Аналогичным образом, они помогают расшифровывать курсивный почерк, моделируя переход между штрихами символов.
В области биоинформатики HMM имеют решающее значение для прогнозирования генов и выравнивания белков. Они анализируют последовательности ДНК или аминокислот для идентификации функциональных областей, таких как гены в геноме. «Скрытые» состояния могут представлять кодирующие или некодирующие области, в то время как конкретные нуклеотиды (A, C, G, T) действуют как наблюдения.
В современном компьютерном зрении HMM можно комбинировать с такими моделями, как YOLO26 для распознавания действий. В то время как YOLO объекты или позы в отдельных кадрах, HMM может анализировать последовательность этих поз во времени для classify действий, таких как «ходьба», «бег» или «падение».
Для разработчиков, использующих Ultralytics для управления наборами данных и моделями, понимание последовательной логики имеет жизненно важное значение. Визуальная модель предоставляет исходные наблюдения (обнаружения), которые затем могут быть введены в модель пространства состояний, такую как HMM, для вывода временного контекста.
Следующий пример демонстрирует, как сгенерировать последовательность наблюдений с помощью оценки позы YOLO26. Эти ключевые точки могут служить в качестве входных данных «наблюдаемых событий» для последующего HMM или аналогичной логики для classify во времени.
from ultralytics import YOLO
# Load the YOLO26n-pose model for efficient keypoint detection
model = YOLO("yolo26n-pose.pt")
# Run inference on a video source (the 'observable' sequence)
# stream=True creates a generator for memory efficiency
results = model.predict(source="path/to/video.mp4", stream=True)
# Iterate through frames to extract observations
for result in results:
# Each 'keypoints' object is an observation for a potential HMM
keypoints = result.keypoints.xyn.cpu().numpy()
if keypoints.size > 0:
print(f"Observation (Normalized Keypoints): {keypoints[0][:5]}...")
# In a full pipeline, these points would be fed into an HMM decoder
Хотя трансформеры и большие языковые модели (LLM) превзошли HMM в таких задачах, как обработка естественного языка (NLP), HMM по-прежнему актуальны в пограничных вычислениях и средах с низкой задержкой. Их вычислительная эффективность делает их идеальными для систем с ограниченными ресурсами, где интенсивные GPU невозможно. Кроме того, поскольку они основаны на прозрачных матрицах вероятностей, они обеспечивают более высокую наблюдаемость по сравнению с «черным ящиком» многих нейронных сетей.