Глоссарий

Двухступенчатые детекторы объектов

Открой для себя мощь двухступенчатых детекторов объектов - решений, ориентированных на точность, для точного обнаружения объектов в сложных задачах компьютерного зрения.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Двухэтапные детекторы объектов представляют собой категорию архитектур обнаружения объектов в компьютерном зрении (КЗ), в которых приоритет отдается точности путем разделения процесса обнаружения на два разных этапа. Эти детекторы предназначены для того, чтобы сначала определить области интереса (РОИ) в изображении, где могут присутствовать объекты, а затем, на втором этапе, классифицировать объекты в этих предполагаемых областях и уточнить их местоположение (ограничительные рамки). Такой методический подход позволяет более детально проанализировать каждый потенциальный объект, что часто приводит к повышению точности обнаружения, особенно в сложных сценариях или при обнаружении мелких объектов.

Как работают двухступенчатые детекторы

Работа двухэтапных детекторов включает в себя последовательный процесс, использующий методы глубокого обучения, в частности конволюционные нейронные сети (CNN).

  1. Этап 1: Предложение региона: На первом этапе обычно используется сеть предложения регионов (Region Proposal Network, RPN) - концепция, популяризированная в модели Faster R-CNN. RPN сканирует особенности изображения (извлеченные опорной CNN, например ResNet) и предлагает набор регионов-кандидатов, в которых могут находиться объекты. Эти предложения, по сути, являются грубыми ограничивающими рамками вокруг потенциальных объектов.
  2. Этап 2: классификация и уточнение: Затем предложенные регионы (RoIs) передаются на второй этап. Для каждого RoI извлекаются характеристики (часто с помощью таких техник, как RoIPool или RoIAlign), и нейронная сеть (NN) выполняет две задачи: классифицирует объект внутри RoI (например, "автомобиль", "человек", "фон") и уточняет координаты ограничительного поля, чтобы более точно подогнать объект. Яркими примерами являются семейство R-CNN(What is R-CNN?, Fast R-CNN, Faster R-CNN) и Mask R-CNN, которое расширяет этот подход для выполнения сегментации экземпляров.

Преимущества и недостатки

Двухступенчатые детекторы имеют явные преимущества, но и компромиссы:

Преимущества:

  • Высокая точность: Разделение генерации предложений и классификации/уточнения позволяет проводить более целенаправленную обработку, что, как правило, приводит к повышению точности, в частности, измеряемой такими метриками, как средняя точность (mAP).
  • Лучшая локализация: Этап уточнения часто приводит к более точным предсказаниям границ.
  • Эффективны для мелких объектов: Они могут работать лучше, чем одноступенчатые детекторы, при определении мелких объектов на изображении благодаря сфокусированной второй ступени.

Недостатки:

  • Медленная скорость: Последовательный двухэтапный процесс по своей природе требует больше времени на вычисления, что приводит к меньшей задержке в выводах по сравнению с одноэтапными методами. Это делает их менее подходящими для приложений, требующих вычислений в реальном времени.
  • Сложность: Архитектура, как правило, сложнее в реализации и обучении.
  • Более высокая вычислительная стоимость: Как правило, они требуют больше вычислительных ресурсов (например, GPU) как для обучения, так и для выводов.

Сравнение с одноступенчатыми детекторами

Основное различие заключается в архитектуре и подходе. Одноступенчатые детекторы объектов, такие как Ultralytics YOLO (например, YOLOv8, YOLO11) и SSD, выполняют локализацию и классификацию объектов одновременно за один проход по сети. Это делает их значительно быстрее. Выбор между одноступенчатыми и двухступенчатыми детекторами часто подразумевает компромисс: приоритет скорости (одноступенчатые) или максимальной точности (двухступенчатые). Хотя одноступенчатые детекторы значительно сократили разрыв в точности, двухступенчатые часто сохраняют преимущество в сценариях, требующих максимальной точности.

Применение в реальном мире

Высокая точность двухступенчатых детекторов делает их ценными в тех случаях, когда точность имеет первостепенное значение:

  • Анализ медицинских изображений: Обнаружение тонких аномалий, например небольших опухолей или повреждений, на снимках КТ или МРТ, где для постановки диагноза важна высокая точность. Модели вроде Mask R-CNN были адаптированы для таких задач в AI in Healthcare (см. пример: Mask R-CNN в медицинской визуализации).
  • Автономное вождение: Обеспечение детального восприятия в автономных автомобилях для точного обнаружения и классификации различных объектов, таких как пешеходы, транспортные средства и дорожные знаки, даже в загроможденной или сложной обстановке, что способствует повышению общей безопасности в рамках ИИ в автомобилестроении.
  • Спутниковые снимки высокого разрешения: Анализируй детальные спутниковые снимки для точной идентификации объектов, например, отслеживай конкретные виды транспортных средств или изменения в инфраструктуре при анализе спутниковых снимков.
  • Контроль качества в производстве: Осмотр продукции на предмет мелких дефектов, требующих высокой точности локализации в ИИ на производстве. Такие фреймворки, как Detectron2 от Meta AI, обеспечивают реализацию популярных двухэтапных моделей.
Читать полностью