Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Vision Transformer (ViT)

Исследуйте возможности Vision Transformers (ViT). Узнайте, как самовнимание и токенизация патчей революционизируют компьютерное зрение за пределами CNN с Ultralytics.

Vision Transformer (ViT) — это архитектура глубокого обучения, которая адаптирует механизмы самовнимания, изначально разработанные для обработки естественного языка (NLP), для решения визуальных задач. В отличие от традиционной сверточной нейронной сети (CNN), которая обрабатывает изображения через иерархию локальных пиксельных сеток, ViT рассматривает изображение как последовательность дискретных фрагментов. Этот подход был популяризован в знаковой научной статье «Изображение стоит 16x16 слов», в которой было продемонстрировано, что чистые архитектуры трансформеров могут достигать передовых результатов в компьютерном зрении (CV) без использования слоев свертки. Используя глобальное внимание, ViT могут улавливать дальнодействующие зависимости по всему изображению с самого первого слоя.

Как работают Vision Transformers

Фундаментальной инновацией ViT является способ структурирования входных данных. Чтобы сделать изображение совместимым со стандартным трансформатором, модель разбивает визуальную информацию на последовательность векторов, имитируя то, как языковая модель обрабатывает предложение из слов.

  1. Токенизация патчей: входное изображение делится на сетку квадратов фиксированного размера, обычно 16x16 пикселей. Каждый квадрат преобразуется в вектор, фактически становясь визуальным токеном.
  2. Линейная проекция: эти уплощенные патчи проходят через обучаемый линейный слой для создания плотных вложений. На этом этапе исходные значения пикселей отображаются в высокоразмерное пространство, которое может обрабатывать модель.
  3. Позиционное кодирование: поскольку архитектура обрабатывает последовательности параллельно и не имеет встроенного понимания порядка или пространства, к встраиванию патчей добавляются обучаемые позиционныеко дировки . Это позволяет модели сохранять пространственную информацию о том, где каждый патч находится в исходном изображении.
  4. Механизм самовнимания: Последовательность поступает в кодировщик Transformer, где самовнимание позволяет каждому фрагменту взаимодействовать со всеми остальными фрагментами одновременно. Это позволяет сети изучать глобальный контекст, понимая, как пиксель в левом верхнем углу соотносится с пикселем в правом нижнем углу.
  5. Классификационная головка: для таких задач, как классификация изображений, к последовательности часто добавляется специальный «классификационный токен». Конечное состояние этого токена служит в качестве совокупного представления изображения, которое затем подается в классификатор, например многослойный перцептрон (MLP).

Трансформеры видения против CNN

Хотя обе архитектуры направлены на понимание визуальных данных, они значительно различаются по своей философии работы. CNN обладают сильным «индуктивным уклоном», известным как инвариантность переноса, что означает, что они по своей сути предполагают, что локальные особенности (такие как края и текстуры) важны независимо от их положения. Это делает CNN высоко эффективными с точки зрения данных и эффективными при работе с небольшими наборами данных.

Напротив, Vision Transformers имеют меньшую предвзятость в отношении изображений. Они должны изучать пространственные отношения с нуля, используя огромные объемы обучающих данных, такие как JFT-300M или полный ImageNet . Хотя это делает обучение более вычислительно-интенсивным, оно позволяет ViT замечательно хорошо масштабироваться; при наличии достаточных данных и вычислительной мощности они могут превосходить CNN, улавливая сложные глобальные структуры, которые могут упускать локальные свертки.

Применение в реальном мире

Способность понимать глобальный контекст делает ViT особенно полезными для сложных сред с высокими ставками.

  • Анализ медицинских изображений: в сфере здравоохранения искусственный интеллект использует ViT для анализа сканов высокого разрешения, таких как МРТ или гистопатологические слайды. Например, при обнаружении опухолей ViT может сопоставить незначительные аномалии текстуры тканей с более широкими структурными изменениями на слайде, выявляя злокачественные паттерны, которые могут быть упущены при локальной обработке.
  • Спутниковые изображения и дистанционное зондирование: ViT превосходны в анализе спутниковых изображений, где взаимосвязи между объектами простираются на большие расстояния. Например, для соединения участка вырубки леса с удаленной лесовозной дорогой необходимо понимание «общей картины» ландшафта, и в этой задаче глобальное внимание ViT превосходит ограниченное поле восприятия стандартных CNN.

Использование трансформаторов с Ultralytics

Сайт ultralytics библиотека поддерживает архитектуры на основе Transformer, в частности RT-DETR трансформатор обнаружения в реальном времени). В то время как флагманский YOLO26 часто предпочитается за его баланс скорости и точности на периферийных устройствах, RT-DETR мощную альтернативу для сценариев, в которых приоритетом является глобальный контекст.

Следующее Python демонстрирует, как загрузить предварительно обученную модель на основе Transformer и запустить инференцию:

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model (Vision Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Run inference on an image source
# The model uses self-attention to detect objects globally
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Перспективы на будущее

Исследования быстро развиваются, чтобы решить проблему высокой вычислительной стоимости ViT. Такие технологии, как FlashAttention, делают эти модели более быстрыми и эффективными с точки зрения использования памяти. Кроме того, все более распространенными становятся гибридные архитектуры, сочетающие эффективность CNN с вниманием Transformers. Для команд, которые хотят управлять этими передовыми рабочими процессами, Ultralytics предлагает единую среду для аннотирования данных, обучения сложных моделей через облако и их развертывания на различных конечных устройствах.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас