Глоссарий

Архитектуры обнаружения объектов

Открой для себя мощь архитектур обнаружения объектов - основы ИИ для понимания изображений. Узнай о типах, инструментах и реальных применениях уже сегодня!

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Архитектуры обнаружения объектов - это фундаментальные структуры, лежащие в основе того, как системы искусственного интеллекта (ИИ) интерпретируют визуальную информацию. Эти специализированные нейронные сети предназначены не только для классификации объектов на изображении (определения того, что на нем присутствует), но и для их точного определения местоположения, как правило, путем построения ограничительных рамок вокруг каждого обнаруженного экземпляра. Для тех, кто знаком с базовыми концепциями машинного обучения (ML), понимание этих архитектур имеет решающее значение для использования возможностей современного компьютерного зрения (CV). Они составляют основу систем, которые позволяют машинам "видеть" и понимать мир так, как это делает человек.

Основные компоненты

Большинство архитектур обнаружения объектов состоят из нескольких ключевых компонентов, работающих вместе. Магистральная сеть, чаще всего конволюционная нейронная сеть (CNN), выполняет первоначальное извлечение признаков из входного изображения, определяя низкоуровневые паттерны, такие как края и текстуры, и постепенно более сложные признаки. Далее часто следует компонент "шея", который агрегирует признаки, полученные на разных этапах работы сети, чтобы создать более богатые представления, подходящие для обнаружения объектов в различных масштабах, - эта концепция подробно описана в таких ресурсах, как статья Feature Pyramid Network. И наконец, головка обнаружения использует эти признаки для предсказания класса и местоположения (координаты ограничительного поля) объектов. Производительность часто измеряется с помощью таких метрик, как Intersection over Union (IoU) для оценки точности локализации и mean Average Precision (mAP) для общего качества обнаружения, а подробные объяснения можно найти на сайтах вроде страницы оценки набора данных COCO.

Типы архитектур

Архитектуры обнаружения объектов широко классифицируются в зависимости от их подхода:

Отличие от похожих терминов

Важно отличать архитектуры обнаружения объектов от смежных задач компьютерного зрения:

  • Классификация изображений: Присваивает единую метку всему изображению (например, "кошка", "собака"). Она определяет , что находится на изображении глобально, но не определяет , где расположены конкретные объекты. Примеры см. в документации к задаче классификацииUltralytics .
  • Семантическая сегментация: Классифицирует каждый пиксель на изображении в заранее определенную категорию (например, все пиксели, принадлежащие автомобилям, помечаются как "автомобиль"). Она обеспечивает плотное предсказание, но не различает разные экземпляры одного и того же класса объектов.
  • Сегментация экземпляров: Идёт на шаг дальше семантической сегментации, классифицируя каждый пиксель и различая отдельные экземпляры объектов (например, обозначая "машина 1", "машина 2"). Он сочетает в себе обнаружение объектов и семантическую сегментацию. Подробнее об этом читай в документации к задаче сегментацииUltralytics .

Применение в реальном мире

Архитектуры обнаружения объектов служат основой для множества приложений ИИ в самых разных отраслях:

Инструменты и технологии

Разработка и развертывание моделей, основанных на этих архитектурах, часто предполагает использование специализированных инструментов и фреймворков:

  • Фреймворки для глубокого обучения: Такие библиотеки, как PyTorch (посети официальный сайтPyTorch ) и TensorFlow (см. сайтTensorFlow ) предоставляют основные строительные блоки.
  • Библиотеки компьютерного зрения: OpenCV (официальный сайт: OpenCV.org) предлагает широкий набор функций для обработки и манипулирования изображениями.
  • Модели и платформы: Ultralytics предоставляет современные моделиUltralytics YOLO и платформу Ultralytics HUB, упрощающие процесс обучения пользовательских моделей, управления наборами данных(например, COCO) и развертывания решений.
  • Открытый исходный код: Многие архитектуры и инструменты для обнаружения объектов разрабатываются под лицензией с открытым исходным кодом, что способствует сотрудничеству и инновациям в сообществе ИИ. На таких ресурсах, как GitHub, размещено множество проектов в этой области.
Читать полностью