Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Self-Attention (механизм самовнимания)

Изучите основы самовнимания в глубоком обучении. Узнайте, как векторы запросов, ключей и значений обеспечивают работу Transformers и Ultralytics для превосходного искусственного интеллекта.

Самостоятельное внимание — это основополагающий механизм в глубоком обучении, который позволяет моделям оценивать важность различных элементов в последовательности ввода относительно друг друга. В отличие от традиционных архитектур, которые обрабатывают данные последовательно или сосредоточены только на локальных соседствах, самостоятельное внимание позволяет нейронной сети одновременно анализировать весь контекст . Эта способность помогает системам выявлять сложные взаимосвязи между удаленными частями данных, такими как слова в предложении или отдельные области на изображении. Она служит основным строительным блоком для архитектуры Transformer, которая способствовала огромным достижениям в области генеративного ИИ и современных систем восприятия .

Как работает механизм Self-Attention

Механизм имитирует когнитивную фокусировку, присваивая вес, часто называемый «оценкой внимания», каждой входной характеристике. Для вычисления этих оценок модель преобразует входные данные, обычно представленные в виде вложений, в три отдельных вектора: запрос, ключ и значение.

  • Запрос (Q): представляет текущий элемент, ищущий соответствующий контекст из остальной части последовательности.
  • Ключ (K): выступает в качестве метки или идентификатора для каждого элемента в последовательности, по которому выполняется сопоставление запроса .
  • Значение (V): содержит фактический информационный контент элемента, который будет агрегирован.

Модель сравнивает запрос одного элемента с ключами всех других элементов, чтобы определить совместимость. Эти оценки совместимости нормализуются с помощью функции softmax для создания вероятностных весов. Затем эти веса применяются к значениям, создавая контекстно-насыщенное представление. Этот процесс позволяет большим языковым моделям (LLM) и системам видения уделять приоритетное внимание значимой информации, отфильтровывая шумы.

Применение в реальном мире

Универсальность самовнимания привела к его широкому применению в различных областях искусственного интеллекта (ИИ).

  • Обработка естественного языка (NLP): В таких задачах, как машинный перевод, самостоятельное внимание устраняет неоднозначность, связывая местоимения с их референтами. Например, в предложении «Животное не перешло улицу, потому что было слишком уставшим» модель использует самовнимание, чтобы прочно связать «оно» с «животным», а не с «улицей». Это контекстуальное осознание лежит в основе таких инструментов, как Google .
  • Глобальный контекст изображения: в компьютерном зрении (CV) архитектуры, такие как Vision Transformer (ViT), делят изображения на фрагменты и применяют самовнимание для глобального понимания сцены. Это жизненно важно для обнаружения объектов в сложных средах, где идентификация объекта зависит от понимания его окружения.

Различение смежных терминов

Хотя эти термины часто обсуждаются наряду с похожими понятиями, они имеют четкие технические определения:

  • Механизм внимания: широкая категория техник, позволяющих моделям фокусироваться на определенных частях данных. Она включает в себя кросс-внимание, когда модель использует одну последовательность (например, выход декодера) для запроса другой последовательности (например, вход кодера).
  • Самостоятельное внимание: особый тип внимания, при котором запрос, ключ и значение происходят из одной и той же последовательности входных данных. Он предназначен для изучения внутренних зависимостей в рамках одного набора данных.
  • Flash Attention: алгоритм оптимизации, разработанный исследователями Стэнфордского университета, который значительно ускоряет вычисления самовнимания и делает их более эффективными с точки зрения использования памяти на графических процессорах без изменения математических результатов.

Пример кода

Следующий Python демонстрирует, как использовать RTDETR, объектный детектор на основе трансформера, включенный в ultralytics пакета. В отличие от стандартных сверточных сетей, эта модель в значительной степени полагается на самоанализ для обработки визуальных характеристик.

from ultralytics import RTDETR

# Load the RT-DETR model which utilizes self-attention for detection
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects with global context
# Self-attention helps the model understand relationships between distant objects
results = model("https://ultralytics.com/images/bus.jpg")

# Print the number of objects detected
print(f"Detected {len(results[0].boxes)} objects using Transformer attention.")

Эволюция и будущее влияние

Самостоятельное внимание эффективно решило проблему исчезающего градиента, которая мешала ранним рекуррентным нейронным сетям (RNN), позволяя обучать массивные базовые модели. Несмотря на высокую эффективность, вычислительные затраты стандартного самостоятельного внимания растут квадратично с длиной последовательности. Для решения этой проблемы текущие исследования сосредоточены на эффективных механизмах линейного внимания.

Ultralytics эти достижения в современные модели, такие как YOLO26, которая сочетает в себе скорость CNN с контекстуальной силой внимания для превосходного вывода в реальном времени. Эти оптимизированные модели можно легко обучить и развернуть с помощью Ultralytics , оптимизируя рабочий процесс для разработчиков, создающих интеллектуальные приложения нового поколения.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас