Глоссарий

Трансформатор зрения (ViT)

Открой для себя мощь трансформаторов зрения (Vision Transformers, ViTs) в компьютерном зрении. Узнай, как они превосходят CNN, улавливая глобальный контекст изображения.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Vision Transformer (ViT) представляет собой значительный сдвиг в области компьютерного зрения, адаптируя архитектуру Transformer, изначально разработанную для обработки естественного языка, к задачам распознавания изображений. В отличие от традиционных конволюционных нейронных сетей (CNN), которые обрабатывают изображения слой за слоем, ViT разбивают изображение на более мелкие участки и рассматривают эти участки как лексемы в последовательности, подобно словам в предложении. Этот новый подход позволяет ViTs использовать мощный механизм самовнимания трансформера для улавливания глобальных связей внутри изображения, что приводит к самым высоким показателям в различных задачах компьютерного зрения.

Как работают трансформаторы зрения

По своей сути, трансформатор зрения обрабатывает изображения, сначала разбивая их на сетку патчей фиксированного размера. Затем эти пятна сплющиваются и линейно преобразуются во вкрапления, которые, по сути, являются векторными представлениями. К этим патчам добавляются позиционные вкрапления, чтобы сохранить пространственную информацию, которая очень важна для понимания структуры изображения. Затем эта последовательность вложенных патчей подается в стандартный кодер-трансформер.

Трансформаторный кодер состоит из нескольких слоев многоголовых сетей самовнушения и feed-forward. Ключевым компонентом здесь является механизм самовнушения, который позволяет модели взвешивать важность каждого патча относительно всех остальных патчей при обработке изображения. Это позволяет ViT понимать глобальный контекст изображения, улавливая дальние зависимости, которые могут быть упущены CNN, сосредоточенными на локальных особенностях. Такое понимание глобального контекста - главная сильная сторона Vision Transformers. Для более глубокого погружения в основополагающие принципы такие ресурсы, как "Иллюстрированный трансформер" Джея Алламмара, дают отличное визуальное объяснение архитектуры трансформера.

Актуальность и применение

Трансформаторы зрения быстро завоевали популярность благодаря своей впечатляющей производительности и масштабируемости. Их способность улавливать глобальный контекст и возможность извлекать пользу из больших наборов данных сделали их весьма актуальными в современных приложениях глубокого обучения. Основные сферы применения ViT включают:

  • Классификация изображений: ViT достигли высочайших результатов в бенчмарках по классификации изображений, часто превосходя производительность традиционных моделей на основе CNN. Их архитектура особенно эффективна при обучении на больших наборах данных, таких как ImageNet.
  • Обнаружение объектов: Трансформаторы зрения все чаще используются в качестве основы в системах обнаружения объектов. Такие модели, как RT-DETRUltralytics , используют трансформаторы зрения для достижения производительности в реальном времени и высокой точности.
  • Сегментация изображений: ВиТы также эффективны в задачах сегментации изображений, позволяя проводить точную классификацию на уровне пикселей в таких приложениях, как анализ медицинских изображений и автономное вождение. Например, модель Segment Anything Model (SAM ) использует ViT-основу для своих мощных возможностей сегментации.

Реальные приложения охватывают различные отрасли. В здравоохранении ViTs помогают анализировать медицинские изображения для улучшения диагностики. В сельском хозяйстве они улучшают мониторинг урожая и выявление болезней. Кроме того, их эффективность и точность делают их подходящими для развертывания на пограничных устройствах, о чем рассказывается в руководствах для NVIDIA Jetson и Raspberry Pi.

Трансформаторы зрения против CNN

Хотя CNN уже давно являются доминирующей архитектурой в компьютерном зрении, Vision Transformers предлагают принципиально иной подход. CNN отлично справляются с захватом локальных паттернов с помощью конволюционных слоев, что делает их эффективными для задач, где локальные особенности имеют решающее значение. Однако иногда они могут испытывать трудности с улавливанием дальних зависимостей и глобального контекста. ViT, с другой стороны, изначально улавливают глобальный контекст благодаря механизмам самовнимания, что дает им преимущество в задачах, требующих целостного понимания сцены.

Несмотря на все их достоинства, для достижения оптимальной производительности ViT обычно требуют значительно больших наборов данных для обучения по сравнению с CNN. CNN могут быть более эффективными с вычислительной точки зрения для небольших наборов данных и задач, ориентированных на локальное извлечение признаков. Выбор между ViTs и CNNs часто зависит от конкретного приложения, размера набора данных и доступных вычислительных ресурсов. Трансформаторы зрения представляют собой значительную эволюцию в компьютерном зрении, демонстрируя мощь механизмов внимания и прокладывая путь для будущих достижений в этой области.

Читать полностью