Изучите основы самовнимания в глубоком обучении. Узнайте, как векторы запросов, ключей и значений обеспечивают работу Transformers и Ultralytics для превосходного искусственного интеллекта.
Самостоятельное внимание — это основополагающий механизм в глубоком обучении, который позволяет моделям оценивать важность различных элементов в последовательности ввода относительно друг друга. В отличие от традиционных архитектур, которые обрабатывают данные последовательно или сосредоточены только на локальных соседствах, самостоятельное внимание позволяет нейронной сети одновременно анализировать весь контекст . Эта способность помогает системам выявлять сложные взаимосвязи между удаленными частями данных, такими как слова в предложении или отдельные области на изображении. Она служит основным строительным блоком для архитектуры Transformer, которая способствовала огромным достижениям в области генеративного ИИ и современных систем восприятия .
Механизм имитирует когнитивную фокусировку, присваивая вес, часто называемый «оценкой внимания», каждой входной характеристике. Для вычисления этих оценок модель преобразует входные данные, обычно представленные в виде вложений, в три отдельных вектора: запрос, ключ и значение.
Модель сравнивает запрос одного элемента с ключами всех других элементов, чтобы определить совместимость. Эти оценки совместимости нормализуются с помощью функции softmax для создания вероятностных весов. Затем эти веса применяются к значениям, создавая контекстно-насыщенное представление. Этот процесс позволяет большим языковым моделям (LLM) и системам видения уделять приоритетное внимание значимой информации, отфильтровывая шумы.
Универсальность самовнимания привела к его широкому применению в различных областях искусственного интеллекта (ИИ).
Хотя эти термины часто обсуждаются наряду с похожими понятиями, они имеют четкие технические определения:
Следующий Python демонстрирует, как использовать RTDETR, объектный детектор на основе трансформера, включенный
в ultralytics пакета. В отличие от стандартных сверточных сетей, эта модель в значительной степени полагается на
самоанализ для обработки визуальных характеристик.
from ultralytics import RTDETR
# Load the RT-DETR model which utilizes self-attention for detection
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects with global context
# Self-attention helps the model understand relationships between distant objects
results = model("https://ultralytics.com/images/bus.jpg")
# Print the number of objects detected
print(f"Detected {len(results[0].boxes)} objects using Transformer attention.")
Самостоятельное внимание эффективно решило проблему исчезающего градиента, которая мешала ранним рекуррентным нейронным сетям (RNN), позволяя обучать массивные базовые модели. Несмотря на высокую эффективность, вычислительные затраты стандартного самостоятельного внимания растут квадратично с длиной последовательности. Для решения этой проблемы текущие исследования сосредоточены на эффективных механизмах линейного внимания.
Ultralytics эти достижения в современные модели, такие как YOLO26, которая сочетает в себе скорость CNN с контекстуальной силой внимания для превосходного вывода в реальном времени. Эти оптимизированные модели можно легко обучить и развернуть с помощью Ultralytics , оптимизируя рабочий процесс для разработчиков, создающих интеллектуальные приложения нового поколения.