Глоссарий

Трансформатор

Узнай, как архитектуры Transformer революционизируют ИИ, обеспечивая прорыв в NLP, компьютерном зрении и продвинутых ML-задачах.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Трансформаторы представляют собой ключевую архитектуру нейронных сетей, которая значительно продвинула области искусственного интеллекта (ИИ) и машинного обучения (МЛО), особенно в обработке естественного языка (ОЯ) и все больше в компьютерном зрении (КЗ). Представленные во влиятельной работе"Attention Is All You Need", они обрабатывают последовательные данные, такие как текст или временные ряды, используя механизм, называемый самовниманием. Это позволяет модели динамически взвешивать важность различных частей входных данных, преодолевая ключевые ограничения старых архитектур, таких как рекуррентные нейронные сети (РНС).

Как работают трансформеры

Основное новшество трансформеров - механизм самовнимания. В отличие от RNN, которые обрабатывают входные данные последовательно (один элемент за другим) и могут испытывать трудности с длинными последовательностями из-за таких проблем, как исчезающие градиенты, трансформеры могут рассматривать все части входной последовательности одновременно. Эта возможность параллельной обработки значительно ускоряет обучение на современном оборудовании, например на графических процессорах от таких компаний, как NVIDIA.

В то время как типичные конволюционные нейронные сети (CNN) фокусируются на локальных признаках с помощью фильтров фиксированного размера, выполняющих свертку, механизм внимания позволяет трансформерам улавливать дальние зависимости и контекстуальные отношения во всем входном сигнале. Эта способность понимать глобальный контекст крайне важна для задач, связанных со сложными отношениями, будь то текст или патчи изображений, используемые в трансформаторах зрения (ViTs).

Актуальность и влияние

Трансформаторы стали основой для многих современных моделей ИИ благодаря своей эффективности в захвате контекста и обработке длинных последовательностей. Их распараллеливаемость позволила обучать массивные модели с миллиардами параметров, такие как GPT-3 и GPT-4, разработанные OpenAI, что привело к прорыву в генеративном ИИ. Такая масштабируемость и производительность сделали трансформеры центральными для прогресса в различных задачах ИИ, стимулируя инновации в исследованиях и промышленности. Многие популярные модели трансформеров, например BERT, легко доступны на таких платформах, как Hugging Face и реализуются с помощью таких фреймворков, как PyTorch и TensorFlowи часто интегрируются в платформы MLOps, такие как Ultralytics HUB.

Приложения в искусственном интеллекте и ML

Трансформаторы очень универсальны и питают множество приложений искусственного интеллекта:

Трансформер по сравнению с другими архитектурами

Полезно отличать трансформеры от других распространенных архитектур нейронных сетей:

  • Трансформаторы против РНС: RNN обрабатывают данные последовательно, что делает их подходящими для данных временных рядов, но они склонны забывать более раннюю информацию в длинных последовательностях(проблема исчезающего градиента). Трансформаторы обрабатывают последовательности параллельно, используя самовнимание, более эффективно улавливая дальние зависимости и быстрее обучаясь на параллельном оборудовании(GPU).
  • Трансформаторы против CNN: CNN отлично справляются с выявлением локальных паттернов в данных, похожих на сетку (например, пикселях на изображении), с помощью конволюционных фильтров. Они очень эффективны для решения многих задач, связанных со зрением, например тех, которые решаются в Ultralytics YOLO модели. Трансформаторы, в частности ViT, делят изображения на патчи и используют самовнимание для моделирования отношений между ними, потенциально лучше улавливая глобальный контекст, но зачастую требуя больше данных и вычислительных ресурсов, особенно во время обучения модели. Гибридные архитектуры, сочетающие в себе функции CNN и слои трансформеров, стремятся использовать сильные стороны обоих, как это показано в некоторых вариантахRT-DETR . Выбор часто зависит от конкретной задачи, размера набора данных и доступных вычислительных ресурсов.
Читать полностью