Глоссарий

Архитектуры обнаружения объектов

Откройте для себя возможности архитектур обнаружения объектов - основы ИИ для понимания изображений. Узнайте о типах, инструментах и реальных приложениях уже сегодня!

Архитектуры обнаружения объектов являются основой для моделей глубокого обучения, которые выполняют обнаружение объектов. Эта задача компьютерного зрения (CV) включает в себя определение наличия и местоположения объектов на изображении или видео, обычно путем рисования ограничительной рамки вокруг них и присвоения метки класса. Архитектура определяет структуру модели, в том числе то, как она обрабатывает визуальную информацию и делает прогнозы. Выбор архитектуры очень важен, поскольку он напрямую влияет на скорость, точность и вычислительные требования модели.

Как работают архитектуры обнаружения объектов

Большинство современных архитектур обнаружения объектов состоит из трех основных компонентов, которые работают последовательно:

  • Магистраль: Это сверточная нейронная сеть (CNN), часто предварительно обученная на большом наборе данных для классификации изображений, например ImageNet. Ее основная роль заключается в том, чтобы действовать как экстрактор признаков, преобразуя входное изображение в серию карт признаков, которые отражают иерархическую визуальную информацию. К популярным опорным сетям относятся ResNet и CSPDarknet, которая используется во многих моделях YOLO. Подробнее об основах CNN можно узнать из таких источников, как подробный обзор IBM.
  • Шея: Этот дополнительный компонент находится между позвоночником и головой. Он служит для агрегирования и уточнения карт признаков, созданных позвоночником, часто объединяя признаки из разных масштабов, чтобы улучшить обнаружение объектов разных размеров. В качестве примера можно привести сети пирамид признаков (FPN).
  • Головка обнаружения: Головка - это последний компонент, отвечающий за составление прогнозов. Он получает обработанные карты признаков от шеи (или непосредственно от позвоночника) и выводит вероятности классов и координаты ограничительной рамки для каждого обнаруженного объекта.

Типы архитектур

Архитектуры обнаружения объектов делятся на категории в зависимости от подхода к прогнозированию, что приводит к компромиссу между скоростью и точностью. Вы можете изучить подробные сравнения моделей, чтобы увидеть эти компромиссы в действии.

  • Двухэтапные детекторы объектов: Эти модели, такие как семейство R-CNN, сначала определяют набор областей-кандидатов на объект (предложения областей), а затем классифицируют каждую область. Этот двухэтапный процесс позволяет достичь высокой точности, но часто работает медленнее.
  • Одноэтапные детекторы объектов: Архитектуры, подобные семейству Ultralytics YOLO (You Only Look Once), рассматривают обнаружение объектов как единую регрессионную задачу. Они предсказывают ограничительные рамки и вероятности классов непосредственно по всему изображению за один проход, что позволяет делать выводы в режиме реального времени.
  • Безъякорные детекторы: В последнее время в одноступенчатых детекторах появились безъякорные архитектуры, такие как Ultralytics YOLO11, которые устраняют необходимость в предопределенных якорных ящиках. Это упрощает процесс обучения и часто приводит к созданию более быстрых и эффективных моделей.

Применение в реальном мире

Архитектуры обнаружения объектов используются в многочисленных приложениях искусственного интеллекта в различных отраслях:

Инструменты и технологии

Разработка и развертывание моделей, основанных на этих архитектурах, часто предполагает использование специализированных инструментов и фреймворков:

  • Фреймворки для глубокого обучения: Такие библиотеки, как PyTorch (посетите официальный сайт PyTorch) и TensorFlow (посетите сайт TensorFlow), предоставляют основные строительные блоки.
  • Библиотеки компьютерного зрения: OpenCV (официальный сайт: OpenCV.org) предлагает широкий набор функций для обработки и манипулирования изображениями.
  • Модели и платформы: Ultralytics предоставляет современные модели Ultralytics YOLO и платформу Ultralytics HUB, упрощающие процесс обучения пользовательских моделей, управления наборами данных (например, COCO) и развертывания решений.
  • Открытый исходный код: Многие архитектуры и инструменты для обнаружения объектов разрабатываются под лицензией с открытым исходным кодом, что способствует сотрудничеству и инновациям в сообществе ИИ. На таких ресурсах, как GitHub, размещено множество проектов в этой области.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена