Глоссарий

Архитектуры обнаружения объектов

Открой для себя мощь архитектур обнаружения объектов - основы ИИ для понимания изображений. Узнай о типах, инструментах и реальных применениях уже сегодня!

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Архитектуры обнаружения объектов - это фундаментальные структуры, лежащие в основе того, как системы искусственного интеллекта (ИИ) интерпретируют визуальную информацию. Эти специализированные нейронные сети предназначены не только для классификации объектов на изображении (определения того, что на нем присутствует), но и для точного определения их местоположения, как правило, путем построения ограничительных рамок вокруг каждого обнаруженного экземпляра. Для тех, кто знаком с базовыми концепциями машинного обучения, понимание этих архитектур имеет решающее значение для использования возможностей современного компьютерного зрения.

Основные компоненты

Большинство архитектур обнаружения объектов состоят из нескольких ключевых компонентов, работающих вместе. Магистральная сеть, чаще всего конволюционная нейронная сеть (CNN), выполняет первоначальное извлечение признаков из входного изображения, определяя низкоуровневые паттерны, такие как края и текстуры, и постепенно более сложные признаки. За ней часто следует компонент "шея", который агрегирует признаки, полученные на разных этапах магистрали, чтобы создать более богатые представления, подходящие для обнаружения объектов в различных масштабах. И наконец, головка обнаружения использует эти признаки для предсказания класса и местоположения (координаты ограничительного поля) объектов. Для оценки точности локализации производительность часто измеряется с помощью таких метрик, как Intersection over Union (IoU).

Типы архитектур

Архитектуры обнаружения объектов широко классифицируются в зависимости от их подхода:

  • Двухступенчатые детекторы: Эти архитектуры, такие как R-CNN и ее преемники вроде Faster R-CNN, сначала определяют потенциальные области интереса (предложения регионов) на изображении, а затем классифицируют и уточняют ограничительные рамки для объектов внутри этих областей. Они часто известны высокой точностью, но могут быть медленнее.
  • Одноступенчатые детекторы: Архитектуры вроде SSD(Single Shot MultiBox Detector) и Ultralytics YOLO (You Only Look Once) выполняют локализацию и классификацию объектов одновременно за один прямой проход по сети. Это делает их значительно более быстрыми и подходящими для выводов в реальном времени. Современные модели YOLO , такие как YOLO11 часто используют технику без якорей, что упрощает конструкцию и потенциально улучшает обобщение по сравнению со старыми методами, основанными на якорях.

Отличие от похожих терминов

Важно отличать архитектуры обнаружения объектов от смежных задач компьютерного зрения:

  • Классификация изображений: Определяет главный объект изображения (например, "кошка"), но не определяет его местоположение. Обнаружение объектов говорит тебе, какие объекты присутствуют и где они находятся.
  • Семантическая сегментация: Классифицирует каждый пиксель на изображении по заранее определенным категориям (например, дорога, машина, небо), обеспечивая плотное понимание на уровне пикселей, не различая отдельные экземпляры объектов.
  • Сегментация экземпляров: Это шаг дальше, чем обнаружение объектов и семантическая сегментация, - он определяет отдельные экземпляры объектов и предоставляет маску на уровне пикселей для каждого из них.

Применение в реальном мире

Архитектуры обнаружения объектов служат основой для множества приложений ИИ в самых разных отраслях:

  1. Автономные транспортные средства: Крайне важно, чтобы самодвижущиеся автомобили могли воспринимать окружающую обстановку, обнаруживая другие транспортные средства, пешеходов, велосипедистов и сигналы светофора для безопасной навигации(см. блог "ИИ в самодвижущихся автомобилях").
  2. Анализ медицинских изображений: Помогая рентгенологам автоматически обнаруживать и локализовать аномалии вроде опухолей, повреждений или переломов на рентгеновских, компьютерных и магнитно-резонансных снимках, что потенциально может привести к более ранней постановке диагноза(изучи тему "ИИ в здравоохранении").
  3. Охрана и наблюдение: Автоматизация наблюдения путем обнаружения вторжений, идентификации конкретных лиц(распознавание лиц) или отслеживания объектов в видеозаписях(см. руководство по охранной сигнализации).
  4. Аналитика розничной торговли: Следи за запасами на полках(ИИ для управления запасами), анализируй пешеходный трафик покупателей и совершенствуй системы оформления заказа.

Инструменты и технологии

Разработка и развертывание моделей, основанных на этих архитектурах, часто предполагает использование специализированных инструментов и фреймворков:

  • Ultralytics YOLO: популярное семейство моделей и сопутствующий фреймворк, известный балансом между скоростью и точностью, широко используемый для приложений реального времени. Ты можешь сравнить различные версии YOLO , например YOLO11 против YOLOv10.
  • Ultralytics HUB: платформа, упрощающая процесс обучения, управления и развертывания моделей YOLO без обширного кодирования.
  • Фреймворки для глубокого обучения: Такие библиотеки, как PyTorch и TensorFlow предоставляют строительные блоки для создания и обучения этих сложных нейронных сетей.
  • OpenCV: незаменимая библиотека с открытым исходным кодом, предлагающая огромный набор функций компьютерного зрения, часто используемых наряду с моделями обнаружения для задач предварительной и последующей обработки.
Читать полностью