Глоссарий

Модели "последовательность-последовательность

Узнай, как модели "последовательность-последовательность" преобразуют входные данные в выходные последовательности, обеспечивая работу таких задач ИИ, как перевод, чат-боты и распознавание речи.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Модели Sequence-to-Sequence (Seq2Seq) - это класс архитектур глубокого обучения, предназначенных для преобразования входной последовательности в выходную, причем длина входной и выходной последовательностей может отличаться. Изначально разработанные на основе рекуррентных нейронных сетей (РНС), эти модели лежат в основе многих задач, связанных с последовательными данными, в частности в обработке естественного языка (NLP). Основная идея заключается в отображении последовательностей, таких как предложения, аудиоклипы или временные ряды, из одного домена в другой.

Как работают модели "последовательность-последовательность

Модели Seq2Seq обычно состоят из двух основных компонентов: кодера и декодера.

  1. Кодировщик: Эта часть обрабатывает всю входную последовательность (например, предложение на французском языке) шаг за шагом. На каждом шаге он обновляет свое внутреннее скрытое состояние. Конечное скрытое состояние, которое часто называют "вектором контекста" или "вектором мысли", призвано отразить краткое содержание или суть входной последовательности. Ранние модели Seq2Seq использовали для этой цели RNNs или LSTMs, как подробно описано в оригинальной статье Sequence to Sequence Learning.
  2. Декодер: Этот компонент получает конечный вектор контекста от кодера и пошагово генерирует выходную последовательность (например, переведенное предложение на English). Он использует вектор контекста в качестве своего начального состояния и производит один элемент выходной последовательности на каждом временном шаге, обновляя по мере этого свое скрытое состояние.

Ключевым нововведением, которое значительно улучшило производительность Seq2Seq, особенно для длинных последовательностей, стал механизм внимания. Внимание позволяет декодеру оглядываться на различные части скрытых состояний входной последовательности (а не только на конечный вектор контекста) при генерации каждого выходного элемента, динамически взвешивая их важность, как это было предложено Бахданау и др.

Актуальность и эволюция

Модели Seq2Seq стали большим прорывом, особенно для задач, в которых длина входных и выходных последовательностей переменна, а выравнивание сложное. Они предоставили гибкую основу для решения разнообразных задач по преобразованию последовательностей. Несмотря на то, что модели Seq2Seq, основанные на RNN, были фундаментальными, они столкнулись с проблемами, связанными с дальними зависимостями. Это привело к разработке моделей-трансформеров, которые полностью полагаются на механизмы внимания и параллельную обработку, в значительной степени заменяя RNN для достижения наилучшей производительности во многих задачах преобразования последовательностей. Однако основная концепция кодера-декодера остается влиятельной. Такие фреймворки, как PyTorch и TensorFlow предоставляют надежные инструменты для построения как традиционных Seq2Seq, так и современных трансформаторных моделей.

Приложения в искусственном интеллекте и ML

Модели Seq2Seq, включая их современные преемники на базе Transformer, используются во многих приложениях:

  • Машинный перевод: Перевод текста с исходного языка на целевой (например, с помощью таких сервисов, как Google Translate).
  • Резюме текста: Генерирование более коротких резюме из длинных статей или документов.
  • Чатботы и ответы на вопросы: Генерирование разговорных реакций или ответов на основе вводимого текста или вопросов. Многие современные чатботы используют передовые архитектуры трансформеров, например GPT-4.
  • Распознавание речи: Преобразование последовательностей звуковых признаков в последовательности текста (транскрипция).
  • Создание подписей к изображениям: Генерирование текстовых описаний (последовательностей слов) для входных изображений. Хотя это и отличается от задач по обнаружению объектов, выполняемых такими моделями, как Ultralytics YOLO, она включает в себя отображение визуального ввода на последовательный вывод. Исследования в таких институтах, как Stanford NLP Group, часто изучают эти области.

Хотя модели Seq2Seq в первую очередь ассоциируются с НЛП, вдохновленные ими механизмы внимания находят применение и в компьютерном зрении, например, в некоторых компонентах моделей обнаружения, таких как RT-DETR или в Vision Transformers. Ты можешь изучить различные модели на таких платформах, как Hugging Face.

Читать полностью