Глоссарий

Рекуррентная нейронная сеть (РНС)

Открой для себя мощь рекуррентных нейронных сетей (РНС) для работы с последовательными данными, от NLP до анализа временных рядов. Изучи ключевые концепции и приложения уже сегодня!

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Рекуррентные нейронные сети (РНС) - это класс нейронных сетей (НС), специально разработанных для обработки последовательных данных, где порядок информации имеет значение. В отличие от стандартных фидфорвардных сетей, которые обрабатывают входы независимо друг от друга, РНС имеют внутренние циклы, что позволяет информации с предыдущих шагов последовательности сохраняться и влиять на последующие шаги. Такая "память" делает их хорошо подходящими для задач, связанных с последовательностями, такими как текст, речь или временные ряды данных, в областях искусственного интеллекта (ИИ) и машинного обучения (МЛО).

Как работают рекуррентные нейронные сети

Основной идеей RNN является скрытое состояние, которое выступает в качестве памяти сети. На каждом шаге последовательности RNN берет текущий вход и скрытое состояние с предыдущего шага, чтобы произвести выход и обновить свое скрытое состояние. Это обновленное скрытое состояние затем передается на следующий шаг. Эта рекуррентная связь позволяет сети сохранять контекст с течением времени. Обучение RNN обычно включает в себя вариацию обратного распространения, называемую Backpropagation Through Time (BPTT), которая разворачивает сеть на длину последовательности для вычисления градиентов. Более продвинутые варианты, такие как Long Short-Term Memory (LSTM) и Gated Recurrent Unit (GRU), были разработаны для решения некоторых ограничений простых RNN, в частности проблемы исчезающего градиента, позволяя им более эффективно обучаться долгосрочным зависимостям. Ты можешь изучать и тренировать различные модели, в том числе и основанные на последовательности, используя такие платформы, как Ultralytics HUB.

Области применения RNN

RNN стали основополагающими в продвижении задач моделирования последовательностей в различных областях. Вот несколько примеров:

RNN по сравнению с другими сетевыми архитектурами

Понимание RNN предполагает их отличие от других типов нейронных сетей:

  • Сети с прямолинейным движением (например, MLP, CNN): Эти сети обрабатывают входные данные фиксированного размера без присущей им памяти о прошлых входных данных. Информация течет в одном направлении - от входа к выходу. В то время как CNN отлично справляются с пространственными иерархиями (например, при классификации изображений или обнаружении объектов), RNN созданы для временных последовательностей. Ты можешь узнать больше о таких моделях обнаружения объектов, как Ultralytics YOLO которые в основном используют архитектуры CNN и Transformer.
  • Трансформеры: Трансформаторы, использующие механизмы внимания, в значительной степени превзошли RNN по современной производительности для многих задач НЛП. Они могут более эффективно моделировать дальние зависимости и допускают большее распараллеливание при обучении, преодолевая ключевые ограничения RNN. Прочитай об эволюции обнаружения объектов, чтобы увидеть, как различные архитектуры продвинули возможности ИИ.
  • LSTM и GRU: это особые типы RNN, разработанные с использованием механизмов стробирования для лучшего контроля потока информации и смягчения проблемы исчезающего градиента, что делает их более искусными в обучении длинных последовательностей по сравнению с ванильными RNN. Материалы курса CS230 в Стэнфорде содержат хороший обзор этих вариантов.

Хотя более новые архитектуры, такие как трансформеры, стали доминирующими во многих областях, RNN остаются важными основополагающими концепциями в глубоком обучении и по-прежнему актуальны в конкретных приложениях или как компоненты в составе больших гибридных моделей. Понимание их механизмов дает ценное представление об эволюции моделирования последовательностей в ИИ. Для дальнейшего изучения такие ресурсы, как специализация DeepLearning.AI, подробно освещают RNNs.

Читать полностью