Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Долгая краткосрочная память (LSTM)

Изучите сети с длинной краткосрочной памятью (LSTM). Узнайте, как LSTM решают проблему исчезающего градиента в RNN для задач анализа временных рядов, NLP и видео.

Long Short-Term Memory (LSTM) — это специализированный тип архитектуры рекуррентных нейронных сетей (RNN), способный обучаться зависимости порядка в задачах прогнозирования последовательностей. В отличие от стандартных нейронных сетей с прямой передачей , LSTM имеют обратные связи, которые позволяют им обрабатывать не только отдельные точки данных (например, изображения), но и целые последовательности данных (например, речь или видео). Эта способность делает их уникально подходящими для задач, в которых контекст из предыдущих входных данных имеет решающее значение для понимания текущих данных, устраняя ограничения «кратковременной памяти» традиционных RNN.

Проблема со стандартными RNN

Чтобы понять инновационность LSTM, полезно рассмотреть проблемы, с которыми сталкиваются базовые рекуррентные нейронные сети. Хотя RNN предназначены для обработки последовательной информации, они испытывают трудности с длинными последовательностями данных из-за проблемы исчезающего градиента. По мере того как сеть проходит обратную пропагацию во времени, градиенты — значения, используемые для обновления весов сети — могут становиться экспоненциально меньше, что фактически мешает сети обучаться связям между удаленными событиями. Это означает, что стандартная RNN может запомнить слово из предыдущего предложения, но забыть контекст, установленный тремя абзацами ранее. LSTM были специально разработаны для решения этой проблемы путем внедрения более сложной внутренней структуры, которая может поддерживать контекстное окно в течение гораздо более длительных периодов времени.

Как работают LSTM

Основной концепцией LSTM является состояние ячейки, которое часто описывают как конвейерную ленту, проходящую через всю цепочку сети. Это состояние позволяет информации проходить по ней без изменений, сохраняя долгосрочные зависимости. Сеть принимает решения о том, что хранить, обновлять или удалять из этого состояния ячейки, используя структуры, называемые воротами.

  • Forget Gate: этот механизм решает, какая информация больше не является актуальной и должна быть удалена из состояния ячейки. Например, если языковая модель сталкивается с новым предметом, она может «забыть» род предыдущего предмета.
  • Входной шлюз: этот шлюз определяет, какая новая информация является достаточно значимой, чтобы быть сохраненной в состоянии ячейки.
  • Выходной вентиль: наконец, этот вентиль контролирует, какие части внутреннего состояния должны быть выведены в следующее скрытое состояние и использованы для немедленного прогнозирования.

Регулируя этот поток информации, LSTM могут преодолевать временные задержки более чем в 1000 шагов, значительно превосходя обычные RNN в задачах, требующих анализа временных рядов.

Применение в реальном мире

LSTM стали основой многих важных прорывов в области глубокого обучения за последнее десятилетие. Вот два ярких примера их применения:

  • Моделирование последовательности в последовательность при переводе: LSTM являются основополагающими для систем машинного перевода. В этой архитектуре один LSTM (кодер) обрабатывает входное предложение на одном языке (например, English) и сжимает его в вектор контекста. Затем второй LSTM (декодер) использует этот вектор для генерации перевода на другой язык (например, французский). Эта способность обрабатывать входные и выходные последовательности разной длины имеет решающее значение для обработки естественного языка (NLP).
  • Анализ видеои распознавание действий: хотя сверточные нейронные сети (CNN), такие как ResNet-50 , превосходно справляются с идентификацией объектов на статических изображениях, им не хватает чувства времени. Комбинируя CNN с LSTM, системы искусственного интеллекта могут распознавать действия в видеопотоках . CNN извлекает особенности из каждого кадра, а LSTM анализирует последовательность этих особенностей, чтобы определить, идет ли человек, бежит или падает.

Интеграция LSTM с компьютерным зрением

В современном компьютерном зрении LSTM часто используются вместе с мощными экстракторами признаков. Например, можно использовать YOLO для detect в отдельных кадрах и LSTM для track траекторий или прогнозирования будущего движения.

Вот концептуальный пример использования torch определить простую LSTM, которая могла бы обрабатывать последовательность векторов признаков, извлеченных из видеопотока:

import torch
import torch.nn as nn

# Define an LSTM model for processing sequential video features
# Input size: 512 (e.g., features from a CNN), Hidden size: 128
lstm_model = nn.LSTM(input_size=512, hidden_size=128, num_layers=2, batch_first=True)

# Simulate a batch of video sequences: 8 videos, 10 frames each, 512 features per frame
video_features = torch.randn(8, 10, 512)

# Pass the sequence through the LSTM
output, (hidden_state, cell_state) = lstm_model(video_features)

print(f"Output shape: {output.shape}")  # Shape: [8, 10, 128]
print("LSTM successfully processed the temporal sequence.")

Связанные понятия и различия

Полезно отличать LSTM от других архитектур обработки последовательностей:

  • LSTM против GRU: Gated Recurrent Unit (GRU) — это упрощенная разновидность LSTM. GRU объединяют входы «забывания» и «ввода» в один «вход обновления» и объединяют состояние ячейки и скрытое состояние. Это делает GRU более эффективными с точки зрения вычислений и быстрее обучаемыми, хотя LSTM все еще могут превосходить их по производительности при работе с более крупными и сложными наборами данных.
  • LSTM против трансформеров: Архитектура трансформеров, основанная на механизмах самовнимания, а не на рекуррентности, в значительной степени заменила LSTM в задачах NLP, таких как те, которые выполняет GPT-4. Трансформеры могут обрабатывать целые последовательности параллельно, а не последовательно, что позволяет значительно ускорить обучение на огромных наборах данных. Однако LSTM по-прежнему актуальны в сценариях с ограниченными данными или специфическими ограничениями временных рядов, где накладные расходы механизмов внимания не нужны.

Эволюция и будущее

В то время как механизм внимания занял центральное место в генеративном ИИ, LSTM по-прежнему остаются надежным выбором для более легких приложений, особенно в пограничных средах ИИ, где вычислительные ресурсы ограничены. Исследователи продолжают изучать гибридные архитектуры, которые сочетают в себе эффективность памяти LSTM с представительной мощью современных систем обнаружения объектов.

Для тех, кто хочет управлять наборами данных для обучения последовательных моделей или выполнения сложных задач машинного зрения, Ultralytics предлагает комплексные инструменты для аннотирования и управления наборами данных. Кроме того, понимание принципа работы LSTM обеспечивает прочную основу для освоения более сложных временных моделей, используемых в автономных транспортных средствах и робототехнике.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас