Глоссарий

Самоуспокоение

Открой для себя силу самовнимания в ИИ, революционизирующую NLP, компьютерное зрение и распознавание речи с точностью до контекста.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Самовнимание - ключевой механизм в современном искусственном интеллекте, особенно заметный в архитектуре Transformer, представленной во влиятельной работе "Attention Is All You Need". Оно позволяет моделям взвешивать важность различных частей одной входной последовательности при обработке информации, что дает возможность глубже понять контекст и взаимосвязи внутри самих данных. Это контрастирует с более ранними методами внимания, которые в основном фокусировались на связи различных входных и выходных последовательностей. Его влияние было преобразующим в обработке естественного языка и становится все более значимым в компьютерном зрении (КВ).

Как работает самовнушение

Основная идея самовнимания заключается в том, чтобы имитировать человеческую способность фокусироваться на определенных частях информации, учитывая при этом их контекст. Например, при чтении предложения значение слова часто зависит от окружающих его слов. Самовнимание позволяет модели ИИ оценивать взаимосвязи между всеми элементами (например, словами или пятнами изображения) в пределах входной последовательности. Она вычисляет "баллы внимания" для каждого элемента относительно всех остальных элементов в последовательности. Эти баллы определяют, сколько "внимания" или веса должен получить каждый элемент при создании выходного представления для конкретного элемента, что позволяет модели сосредоточиться на наиболее значимых частях входных данных для понимания контекста и дальних зависимостей. Этот процесс включает в себя создание представлений запросов, ключей и значений для каждого входного элемента, часто получаемых из входных вкраплений.

Основные преимущества

Самостоятельное внимание имеет несколько преимуществ перед старыми техниками обработки последовательностей:

  • Улавливание дальних зависимостей: В отличие от конволюционных нейронных сетей (CNN), которые фокусируются на локальных признаках, или рекуррентных нейронных сетей (RNN), которым сложно работать с длинными последовательностями из-за таких проблем, как исчезающие градиенты, самовнушение может напрямую моделировать взаимосвязи между элементами, находящимися далеко друг от друга в последовательности.
  • Распараллеливание: Вычисления для самовнушения по разным элементам могут выполняться параллельно, что приводит к значительному ускорению обучения и вывода по сравнению с последовательной природой RNN. Такая эффективность крайне важна для обучения больших моделей на больших наборах данных, таких как ImageNet.
  • Улучшенное контекстуальное понимание: Взвешивая значимость всех частей входных данных, модели могут генерировать более контекстуально насыщенные представления, улучшая производительность при выполнении сложных задач.

Самостоятельное внимание против традиционного внимания

Несмотря на то, что оба они относятся к механизмам внимания, самовнимание существенно отличается от традиционного внимания. Традиционное внимание обычно рассчитывает показатели внимания между элементами двух разных последовательностей, например, соотнося слова в исходном предложении со словами в целевом предложении при машинном переводе. Самовнимание же рассчитывает показатели внимания в пределах одной последовательности, соотнося элементы входных данных с другими элементами тех же входных данных. Этот внутренний фокус является ключом к его эффективности в задачах, требующих глубокого понимания структуры и контекста входных данных.

Приложения в искусственном интеллекте

Самовнимание является основополагающим для многих современных моделей в различных областях:

Будущие направления

Исследования продолжают совершенствовать механизмы самовнимания, стремясь к большей вычислительной эффективности (например, такие методы, как FlashAttention и варианты разреженного внимания) и более широкой применимости. Ожидается, что по мере усложнения моделей ИИ самовнимание будет оставаться краеугольной технологией, стимулирующей прогресс в различных областях - от специализированных приложений ИИ до создания искусственного общего интеллекта (ИОИ). Такие инструменты и платформы, как Ultralytics HUB, облегчают обучение и развертывание моделей, включающих эти передовые техники.

Читать полностью