Глоссарий

Трансформатор зрения (ViT)

Узнай, как Vision Transformers (ViT) революционизируют компьютерное зрение с помощью самовнимания, превосходя его в задачах классификации, обнаружения и сегментации.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Vision Transformers (ViT) произвели революцию в компьютерном зрении, внедрив архитектуры на основе трансформаторов, традиционно используемые в обработке естественного языка (NLP), в задачи зрения. В отличие от конволюционных нейронных сетей (CNN), которые опираются на конволюционные операции, ViT используют механизмы самовнушения для анализа и обработки данных изображения, предлагая более гибкий и масштабируемый подход к решению различных задач зрения.

Как работают трансформаторы зрения

ViT делят входное изображение на небольшие патчи фиксированного размера, сплющивают их и рассматривают каждый патч как "лексему", подобно словам в NLP. Затем эти лексемы встраиваются в высокоразмерные векторы и проходят через несколько слоев трансформаторов-кодировщиков, где механизмы самовнушения позволяют модели фокусироваться на релевантных частях изображения. Такая структура позволяет ViT эффективно улавливать как локальные, так и глобальные зависимости.

ViT полагаются на позиционные кодировки, чтобы сохранить пространственную информацию - важнейший аспект данных изображения, которого не хватает традиционным трансформаторам. Обучаясь взаимосвязям между патчами, ViT могут достигать самых высоких результатов в таких задачах, как классификация изображений, обнаружение объектов и сегментация.

Преимущества перед CNN

  1. Масштабируемость: ViT лучше масштабируются с большими наборами данных по сравнению с CNN, что делает их подходящими для приложений, требующих изображений высокого разрешения или разнообразных наборов данных.
  2. Глобальный контекст: Механизм самовнимания позволяет ViT моделировать дальние зависимости по всему изображению, в то время как CNN ограничены локальными рецептивными полями.
  3. Гибкость: ViTs можно тонко настраивать на разные задачи с минимальными изменениями в архитектуре, используя предварительно обученные модели, например ImageNet.

Узнай больше о том, как работают трансформаторы, в записи глоссария "Трансформаторы".

Области применения трансформаторов зрения

Классификация изображений

ВиТы отлично справляются с задачами классификации изображений, используя свою способность улавливать глобальные особенности изображения. Предварительно обученные ViT, такие как Google's Vision Transformer, достигли высочайшей точности на таких эталонах, как ImageNet. Например, ViT применяются в здравоохранении для классификации медицинских изображений, помогая в диагностике заболеваний.

Изучи задачи классификации изображений с помощью моделейUltralytics YOLO .

Обнаружение объектов

ВиТы все чаще используются в конвейерах обнаружения объектов, заменяя традиционные основы, основанные на свертке. Такие модели, как DETR (DEtection TRansformer), демонстрируют эффективность ViTs в обнаружении и локализации объектов без опоры на сети предложения областей.

Открой для себя решения для обнаружения объектов с помощью Ultralytics YOLO.

Сегментация изображений

Используя самовнимание, ViT обеспечивают точные и эффективные решения для семантической сегментации и сегментации экземпляров. Сферы применения включают автономное вождение, где точная сегментация на уровне пикселей имеет решающее значение для обнаружения дорожных знаков, пешеходов и транспортных средств.

Узнай больше о задачах сегментации изображений.

Примеры из реальной жизни

  1. Здравоохранение: ВиТы используются в медицинской визуализации для таких задач, как обнаружение опухолей и сегментация органов. Их способность анализировать изображения высокого разрешения помогает в ранней диагностике и планировании лечения. Например, возможностиUltralytics YOLO11 по созданию медицинских изображений могут быть расширены с помощью оснований на базе ViT для повышения точности.

  2. Автономные транспортные средства: ВиТы питают системы технического зрения в автономных автомобилях, позволяя в реальном времени обнаруживать препятствия, разметку и дорожные знаки. Их глобальное понимание контекста повышает безопасность и улучшает процесс принятия решений.

Узнай больше о применении ИИ в самостоятельном вождении с помощью решений Vision AI.

Проблемы и соображения

Несмотря на то, что ViT дают значительные преимущества, они не обходятся без проблем:

  • Требования к данным: ViT лучше всего работают с большими наборами данных, так как их механизмы самовнушения требуют большого количества данных для эффективного обобщения.
  • Вычислительные затраты: Обучение ViTs требует значительных вычислительных ресурсов из-за квадратичной сложности их самовнушения.

Для решения этих проблем были разработаны такие подходы, как гибридные модели, объединяющие ViTs с CNN, и такие техники, как объединение патчей, чтобы сделать ViTs более эффективными.

Смежные понятия

  • Трансформаторы: ViTs - это специализированное применение трансформаторов, изначально созданное для НЛП. Узнай больше о трансформаторах.
  • Самостоятельное внимание: Основной механизм у ВиТов, который позволяет им фокусироваться на разных частях изображения. Исследуй самовнимание, чтобы глубже понять его.

ВиТы продолжают расширять границы компьютерного зрения, предлагая инновационные решения в разных отраслях. С помощью таких инструментов, как Ultralytics HUB, разработчики могут исследовать потенциал ViTs в реальных приложениях, упрощая развертывание и масштабируя решения AI.

Читать полностью