Глоссарий

Лонгформер

Открой для себя Longformer - модель трансформатора, оптимизированную для длинных последовательностей и предлагающую масштабируемую эффективность для NLP, геномики и видеоанализа.

Longformer - это специализированная модель на основе трансформеров, предназначенная для эффективной обработки очень длинных последовательностей текста, преодолевая ограничения, присущие более ранним моделям вроде BERT (Bidirectional Encoder Representations from Transformers). Разработанная исследователями из Института искусственного интеллекта Аллена (AI2), Longformer решает проблему, с которой сталкиваются стандартные модели трансформеров, - вычислительную сложность при обработке тысяч лексем, что делает ее подходящей для задач, связанных с длинными документами. Эта возможность крайне важна для развития приложений обработки естественного языка (NLP), которые требуют понимания контекста на больших отрезках текста.

Как работает лонгформер

В стандартных моделях трансформеров используется механизм полного самовнушения, когда каждый токен обращается к каждому другому токену. Несмотря на свою мощность, требования к памяти и вычислениям этого механизма растут квадратично с длиной последовательности, что делает его непрактичным для последовательностей длиннее нескольких сотен токенов. Longformer представляет эффективную схему внимания, которая линейно увеличивается с длиной последовательности. В первую очередь он использует комбинацию из:

Скользящее окно внимания: Каждый маркер обращает внимание только на фиксированное количество соседних маркеров по обе стороны, создавая локальное контекстное окно.
Расширенные скользящие окна: Чтобы увеличить рецептивное поле без значительного увеличения вычислений, некоторые слои внимания с окнами используют разрывы (расширение), позволяя маркерам косвенно посещать более удаленные маркеры.
Глобальное внимание: Небольшому количеству заранее выбранных токенов разрешено посещать всю последовательность, и вся последовательность может посещать их. Это часто используется для определенных токенов, имеющих решающее значение для выполнения задания, например [CLS] токен в задачах классификации.

Этот модифицированный механизм внимания позволяет Longformer обрабатывать входные данные вплоть до десятков тысяч токенов, что значительно больше, чем типичное ограничение в 512 токенов для моделей вроде BERT, и при этом сохранять высокую производительность. Такая эффективность жизненно важна для многих реальных задач машинного обучения (ML).

Основные отличия от других моделей

Основное отличие Longformer от таких моделей, как BERT или GPT-2, заключается в максимальной длине последовательности, которую они могут эффективно обрабатывать. В то время как BERT ограничен 512 токенами, Longformer может обрабатывать последовательности на порядки длиннее. Другие модели, рассчитанные на длинные последовательности, такие как Reformer или Transformer-XL, для достижения эффективности используют различные техники вроде чувствительного к локальности хеширования или рекуррентных механизмов. Подход Longformer, подробно описанный в его оригинальной научной статье, обеспечивает гибкую комбинацию локального и глобального внимания, подходящую для различных последующих задач после тонкой настройки.

Приложения и примеры использования

Способность Longformer обрабатывать длинные документы открывает возможности для решения множества задач NLP, которые раньше были сложными или требовали сложных обходных путей вроде разделения документов.

Ответы на вопросы на уровне документов: Поиск ответов в объемных документах, таких как юридические тексты, технические руководства или длинные отчеты, где ответ может зависеть от информации, разбросанной по абзацам или страницам.
Суммирование длинных документов: Генерирование кратких резюме целых статей, научных работ или глав книг за счет понимания контекста полного документа.
Разрешение кореференции: Выявление упоминаний, относящихся к одной и той же сущности, на длинных отрезках текста.
Анализ научной литературы: Обработка и извлечение информации из плотных научных статей. Такие платформы, как Hugging Face предоставляют легкий доступ к предварительно обученным моделям Longformer для этих приложений через свою библиотеку Transformers.

Значимость в AI/ML

Longformer - это значительный шаг вперед в создании моделей глубокого обучения, способных понимать и рассуждать о длинных текстах. Преодолевая квадратичную сложность стандартных трансформаторов, он позволяет большим языковым моделям (LLM) более эффективно решать задачи, связанные с документами, книгами и расширенными диалогами. Эта возможность очень важна для приложений, требующих глубокого контекстного понимания, расширяя границы возможностей ИИ в обработке человеческого языка, представленного в длинных форматах. Если такие модели, как Ultralytics YOLO , отлично справляются с задачами компьютерного зрения, такими как обнаружение объектов, то Longformer обеспечивает аналогичные достижения для работы со сложными текстовыми данными большой формы. Такие инструменты, как Ultralytics HUB, упрощают развертывание и управление различными моделями ИИ, в том числе потенциально настроенными для решения конкретных задач NLP.

Лонгформер

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Гибкое решение для лицензирования предприятий, которое обеспечит тебе инновации

Обучай модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Обучать модели YOLO просто с помощью Ultralytics HUB.

Как работает лонгформер

Основные отличия от других моделей

Приложения и примеры использования

Значимость в AI/ML

Читайте больше блогов

Присоединяйся к сообществу Ultralytics

Лонгформер

Обучай модели YOLO простос помощью Ultralytics HUB.

Гибкое решение для лицензирования предприятий, которое обеспечит тебе инновации

Обучай модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Обучать модели YOLO просто с помощью Ultralytics HUB.

Как работает лонгформер

Основные отличия от других моделей

Приложения и примеры использования

Значимость в AI/ML

Читайте больше блогов

Присоединяйся к сообществу Ultralytics

Обучай модели YOLO просто
с помощью Ultralytics HUB.