Глоссарий

Реформер

Открой для себя модель Reformer: новаторская архитектура трансформатора, оптимизированная для длинных последовательностей с LSH-вниманием и реверсивными слоями.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Reformer - это эффективный вариант стандартной архитектуры Transformer, специально разработанный для работы с очень длинными последовательностями, которые представляют значительную проблему с вычислениями и памятью для традиционных Transformer. Разработанный исследователями из Google Research, Reformer включает в себя несколько инноваций, позволяющих резко снизить потребление памяти и вычислительные затраты, что делает возможным обработку последовательностей с сотнями тысяч и даже миллионами элементов, что выходит далеко за пределы типичных ограничений стандартных трансформеров. Такая эффективность открывает возможности для применения трансформер-подобных моделей в задачах с обширным контекстом, таких как обработка целых книг, изображений высокого разрешения, рассматриваемых как последовательности пикселей, или длинных музыкальных произведений.

Основные концепции реформера

Реформер достигает своей эффективности в первую очередь за счет двух ключевых приемов:

  1. Локально-чувствительное хэширование (LSH) внимания: Стандартные трансформеры используют механизм полного самовнимания, когда каждый элемент (токен) обращается к каждому другому элементу. Вычислительные затраты на это растут квадратично с длиной последовательности. Reformer заменяет этот механизм вниманием LSH - техникой аппроксимации, основанной на Locality-Sensitive Hashing. LSH группирует похожие токены вместе, и внимание вычисляется только внутри этих групп или близлежащих групп, что значительно снижает вычислительную сложность с квадратичной до почти линейной.
  2. Обратимые остаточные слои: Трансформаторы складывают несколько слоев, и во время обучения активации из каждого слоя обычно хранятся в памяти для обратного распространения. Это потребляет значительное количество памяти, особенно при большом количестве слоев или больших активациях. В реформере используются обратимые слои, которые позволяют пересчитывать активации из любого слоя во время обратного прохода, используя только активации следующего слоя. Это устраняет необходимость хранить активации для большинства слоев, что значительно сокращает расход памяти во время обучения.

Реформер против стандартного трансформера

Хотя в основе обоих лежит механизм внимания, Reformer существенно отличается:

  • Внимание: Стандартные трансформеры используют полное, требующее больших вычислительных затрат внимание. Реформер использует эффективное приближенное внимание на основе LSH.
  • Память: Стандартные трансформеры требуют большого объема памяти для хранения активаций. Реформер использует обратимые слои, чтобы минимизировать требования к памяти во время обучения модели.
  • Длина последовательности: Стандартные трансформеры обычно ограничены последовательностями в несколько тысяч лексем. Реформер может работать с последовательностями на порядки длиннее.
  • Пример использования: стандартные трансформеры отлично справляются с задачами с умеренно длинными последовательностями. Reformer специально оптимизирован для задач с очень длинными последовательностями, где стандартные трансформеры невыполнимы. Ты можешь изучить различные модели на основе трансформеров на таких платформах, как Hugging Face.

Приложения

Способность реформера обрабатывать длинные последовательности делает его пригодным для решения различных задач в области искусственного интеллекта (ИИ):

  • Обработка длинных документов: Такие задачи, как резюмирование целых книг, ответы на вопросы, основанные на длинных юридических или технических документах, или анализ настроения длинных текстов, становятся более выполнимыми.
  • Геномика: Анализируй длинные последовательности ДНК или белков.
  • Анализ временных рядов: Моделирование очень длинных временных рядов данных, таких как детальные тенденции финансового рынка или долгосрочные климатические модели.
  • Генеративное моделирование: Генерируй длинные связные куски текста, музыки или даже изображения высокого разрешения, рассматривая пиксели как длинную последовательность(Text-to-Image generation).

В то время как такие модели, как Ultralytics YOLO нацелены на эффективное обнаружение объектов на изображениях, часто используя конволюционные нейронные сети (CNN) или гибридные архитектуры, такие как RT-DETRно принципы эффективности вычислений и памяти, изученные в Reformer, актуальны для всей области глубокого обучения (DL). Понимание таких достижений помогает стимулировать инновации в направлении создания более способных и доступных моделей ИИ, и эту цель разделяют такие платформы, как Ultralytics HUB, которые стремятся упростить разработку и внедрение ИИ. За более подробной информацией обращайся к оригинальной исследовательской работе Reformer. Сравнение эффективности моделей, например YOLO11 против YOLOv10, подчеркивает постоянные усилия по достижению баланса между производительностью и использованием ресурсов.

Читать полностью