Глоссарий

Длительная кратковременная память (LSTM)

Узнай, как сети Long Short-Term Memory (LSTM) отлично справляются с последовательными данными, преодолевают ограничения RNN и питают такие задачи ИИ, как NLP и прогнозирование.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Сети с длинной кратковременной памятью (LSTM) - это специализированный тип рекуррентных нейронных сетей (RNN), предназначенных для эффективного изучения дальних зависимостей в последовательных данных. В отличие от базовых РНС, которые с трудом удерживают информацию в длинных последовательностях из-за таких проблем, как проблема исчезающего градиента, LSTM включают внутренние механизмы, называемые воротами, для регулирования потока информации, что позволяет им запоминать релевантные детали и забывать нерелевантные в течение длительных периодов времени. Это делает их особенно мощными для задач машинного обучения (ML) и глубокого обучения (DL), которые связаны с последовательностями.

Основная концепция: Гейты и ячейки памяти

Ключевое новшество LSTM заключается в их внутренней структуре, которая включает в себя ячейку памяти и три первичных гейта:

  1. Ворота забывания (Forget Gate): Решает, какая информация должна быть выброшена из состояния ячейки.
  2. Входные ворота: Определяет, какая новая информация должна быть сохранена в состоянии клетки.
  3. Выходные ворота: Управляет тем, какая информация из состояния клетки используется для генерации выхода на текущем временном шаге.

Эти ворота, реализованные с помощью функций типа sigmoid и tanh, позволяют нейронной сети (НС) LSTM выборочно обновлять свою память, сохраняя важный контекст из более ранних частей последовательности при обработке более поздних частей. Этот механизм обучается методом обратного распространения, подобно другим нейронным сетям. Чтобы получить наглядное объяснение, в блоге Кристофера Олаха есть отличный обзор, посвященный LSTM.

Актуальность в искусственном интеллекте и ML

LSTM оказались очень влиятельными в областях, связанных с последовательными данными, благодаря своей способности улавливать временные зависимости. Для многих задач они представляли собой значительный прогресс по сравнению с более простыми RNN. Хотя новые архитектуры, такие как трансформеры, стали доминировать в таких областях, как обработка естественного языка (NLP), благодаря лучшему распараллеливанию и работе с очень длинными последовательностями с помощью механизмов внимания, LSTM остаются актуальными и иногда используются в гибридных архитектурах или для решения специфических задач моделирования последовательностей, где выгодно их состояние.

Сравнение с родственными концепциями

  • РНС: LSTM - это тип RNN, специально разработанный для преодоления ограничений кратковременной памяти простых RNN.
  • Gated Recurrent Units (GRUs): GRU - это еще один тип управляемых RNN, похожий на LSTM, но с более простой структурой (меньшее количество гейтов). Они часто достигают сравнимой с LSTM производительности в различных задачах и могут быть вычислительно менее дорогими.
  • Трансформаторы: В отличие от RNNs/LSTMs, которые обрабатывают последовательности шаг за шагом, трансформеры используют механизмы самовнимания, чтобы взвешивать важность разных частей последовательности одновременно. Это позволяет добиться большего распараллеливания и привело к самым передовым результатам во многих задачах НЛП, как это видно на примере таких моделей, как BERT и GPT.

Применение в реальном мире

LSTM успешно применяются во многих областях:

  • Машинный перевод: Системы вроде ранних версий Google Translate использовали LSTM для перевода текста с одного языка на другой, последовательно обрабатывая входные предложения.
  • Распознавание речи: Преобразование разговорной речи в текст, где понимание контекста во времени имеет решающее значение для точности, часто использует LSTM или аналогичные архитектуры для акустического моделирования. В качестве примера можно привести компоненты виртуальных помощников вроде Amazon Alexa или Apple Siri.
  • Анализ временных рядов: Прогнозирование будущих значений на основе прошлых наблюдений, например, прогнозирование фондового рынка, предсказание погоды или обнаружение аномалий в сенсорных данных.
  • Генерация текста: Создавай связный текст для таких приложений, как чат-боты или создание контента.

Реализация и инструменты

LSTM можно легко реализовать с помощью популярных фреймворков глубокого обучения, таких как PyTorch (см. документацию поPyTorch LSTM) и TensorFlow (см. документацию поTensorFlow LSTM). Хотя Ultralytics в первую очередь ориентирована на модели компьютерного зрения (CV), такие как Ultralytics YOLO для таких задач, как обнаружение объектов и сегментация экземпляров, понимание моделей последовательности очень ценно, особенно в свете исследований, направленных на объединение NLP и CV для таких задач, как понимание видео или создание подписей к изображениям. Ты можешь подробнее изучить различные модели и концепции ML в документацииUltralytics . В основополагающей статье о LSTM, написанной Хохрейтером и Шмидхубером, приводятся оригинальные технические подробности.

Читать полностью