Глоссарий

Лонгформер

Открой для себя Longformer - модель трансформатора, оптимизированную для длинных последовательностей и предлагающую масштабируемую эффективность для NLP, геномики и видеоанализа.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Longformer - это тип архитектуры трансформаторной модели, разработанный для обработки исключительно длинных последовательностей данных более эффективно, чем традиционные трансформаторы. Это усовершенствование устраняет ключевое ограничение стандартных трансформаторных моделей, которые с трудом справляются с длинными входными данными из-за вычислительных ограничений, которые квадратично зависят от длины последовательности.

Понимание лонгформера

Традиционные модели трансформаторов, несмотря на свою мощь, сталкиваются с проблемами при обработке длинных последовательностей текста, аудио или видео. Вычислительная сложность их механизма внимания растет квадратично с длиной входной последовательности, что делает его непрактичным для длинных документов или входных данных с высоким разрешением. Longformer решает эту проблему, внедряя механизм внимания, который линейно масштабируется с длиной последовательности. Это новшество позволяет модели обрабатывать входные данные из тысяч или даже десятков тысяч лексем, открывая новые возможности для обработки более длинных контекстов в различных задачах ИИ.

Ключом к эффективности Longformer является его гибридный механизм внимания, который сочетает в себе разные типы внимания:

  • Скользящее окно внимания: Каждый токен обращает внимание на фиксированное количество токенов вокруг него, создавая локальный контекст. Это эффективно с точки зрения вычислений и эффективно отражает локальные зависимости.
  • Глобальное внимание: Определенные предопределенные лексемы посещают все остальные лексемы, а все лексемы посещают эти глобальные лексемы. Это позволяет модели изучать глобальные представления и поддерживать общий контекст на протяжении всей длинной последовательности.
  • Внимание с расширенным скользящим окном: Похоже на внимание со скользящим окном, но с пробелами (расширением) в окне, что позволяет увеличить эффективное рецептивное поле при аналогичных вычислительных затратах.

Благодаря стратегическому сочетанию этих механизмов внимания Longformer значительно снижает вычислительную нагрузку, сохраняя при этом способность моделировать дальнодействующие зависимости, необходимые для понимания длинных входных данных. Это делает Longformer особенно ценным в задачах обработки естественного языка (NLP), связанных с документами, статьями или разговорами, а также в задачах компьютерного зрения, связанных с изображениями или видео высокого разрешения.

Применение лонгформера

Способность Longformer работать с длинными последовательностями делает его подходящим для целого ряда приложений, где длина контекста имеет решающее значение:

  • Резюме документов: В задачах, требующих понимания целых документов для создания связных резюме, Longformer превосходит всех, обрабатывая полный текст входных данных. Например, при анализе юридических или медицинских изображений, где важен контекст из объемных отчетов, Longformer может обеспечить более полные и точные резюме по сравнению с моделями с ограниченными контекстными окнами.
  • Ответы на вопросы по длинным документам: Longformer очень эффективен в системах ответов на вопросы, которым нужно извлекать информацию из объемных документов. Например, в юридических приложениях ИИ Longformer можно использовать для ответа на конкретные юридические вопросы на основе объемных документов по делу или уставов, что дает значительное преимущество перед моделями, которые могут обрабатывать только фрагменты текста за один раз.
  • Обработка геномных данных: Помимо текста, архитектура Longformer адаптируется к другим типам последовательных данных, включая геномные последовательности. В биоинформатике анализ длинных последовательностей ДНК или РНК имеет решающее значение для понимания биологических процессов и болезней. Longformer может обрабатывать эти длинные последовательности, чтобы выявить закономерности и взаимосвязи, которые могут быть упущены моделями с более короткими контекстными возможностями.
  • Анализ длинного видео: В задачах компьютерного зрения, связанных с видео, особенно в тех, где требуется понимание событий в течение длительного времени, Longformer можно применять для обработки длинных последовательностей кадров. Это полезно в таких приложениях, как наблюдение или анализ длительных хирургических процедур, где временной контекст жизненно важен.

Модели лонгформеров и трансформаторов

Longformer - это эволюция оригинальной архитектуры Transformer, специально разработанная для преодоления вычислительных ограничений стандартных трансформаторов при работе с длинными последовательностями. В то время как традиционные трансформеры используют полное самовнимание, которое является квадратично сложным, Longformer вводит разреженные паттерны внимания, чтобы достичь линейной сложности. Это делает Longformer более масштабируемым и эффективным вариантом для задач с дальними зависимостями, при этом сохраняя основные преимущества архитектуры трансформаторов в улавливании контекстуальных связей. Для задач с более короткими входными последовательностями могут подойти стандартные трансформаторы, но для приложений, требующих обработки обширного контекста, Longformer обеспечивает значительное преимущество. Ты можешь изучить другие архитектуры моделей, такие как YOLO-NAS или RT-DETR в экосистеме Ultralytics , которые разработаны для эффективных и точных задач обнаружения объектов, демонстрируя разнообразный ландшафт модельных архитектур в ИИ.

Читать полностью