Архитектуры обнаружения объектов

Откройте для себя возможности архитектур обнаружения объектов - основы ИИ для понимания изображений. Узнайте о типах, инструментах и реальных приложениях уже сегодня!

Архитектуры обнаружения объектов являются основой для моделей глубокого обучения, которые выполняют обнаружение объектов. Эта задача компьютерного зрения (CV) включает в себя определение наличия и местоположения объектов на изображении или видео, обычно путем рисования ограничительной рамки вокруг них и присвоения метки класса. Архитектура определяет структуру модели, в том числе то, как она обрабатывает визуальную информацию и делает прогнозы. Выбор архитектуры очень важен, поскольку он напрямую влияет на скорость, точность и вычислительные требования модели.

Как работают архитектуры обнаружения объектов

Большинство современных архитектур обнаружения объектов состоит из трех основных компонентов, которые работают последовательно:

Магистраль: Это сверточная нейронная сеть (CNN), часто предварительно обученная на большом наборе данных для классификации изображений, например ImageNet. Ее основная роль заключается в том, чтобы действовать как экстрактор признаков, преобразуя входное изображение в серию карт признаков, которые отражают иерархическую визуальную информацию. К популярным опорным сетям относятся ResNet и CSPDarknet, которая используется во многих моделях YOLO. Подробнее об основах CNN можно узнать из таких источников, как подробный обзор IBM.
Шея: Этот дополнительный компонент находится между позвоночником и головой. Он служит для агрегирования и уточнения карт признаков, созданных позвоночником, часто объединяя признаки из разных масштабов, чтобы улучшить обнаружение объектов разных размеров. В качестве примера можно привести сети пирамид признаков (FPN).
Головка обнаружения: Головка - это последний компонент, отвечающий за составление прогнозов. Он получает обработанные карты признаков от шеи (или непосредственно от позвоночника) и выводит вероятности классов и координаты ограничительной рамки для каждого обнаруженного объекта.

Типы архитектур

Архитектуры обнаружения объектов делятся на категории в зависимости от подхода к прогнозированию, что приводит к компромиссу между скоростью и точностью. Вы можете изучить подробные сравнения моделей, чтобы увидеть эти компромиссы в действии.

Двухэтапные детекторы объектов: Эти модели, такие как семейство R-CNN, сначала определяют набор областей-кандидатов на объект (предложения областей), а затем классифицируют каждую область. Этот двухэтапный процесс позволяет достичь высокой точности, но часто работает медленнее.
Одноэтапные детекторы объектов: Архитектуры, подобные семейству Ultralytics YOLO (You Only Look Once), рассматривают обнаружение объектов как единую регрессионную задачу. Они предсказывают ограничительные рамки и вероятности классов непосредственно по всему изображению за один проход, что позволяет делать выводы в режиме реального времени.
Безъякорные детекторы: В последнее время в одноступенчатых детекторах появились безъякорные архитектуры, такие как Ultralytics YOLO11, которые устраняют необходимость в предопределенных якорных ящиках. Это упрощает процесс обучения и часто приводит к созданию более быстрых и эффективных моделей.

Применение в реальном мире

Архитектуры обнаружения объектов используются в многочисленных приложениях искусственного интеллекта в различных отраслях:

Автономные транспортные средства: Для самоуправляемых автомобилей важно воспринимать окружающую обстановку, обнаруживая пешеходов, другие транспортные средства, дорожные знаки и разметку. Такие компании, как Waymo, в значительной степени полагаются на сложное обнаружение объектов. Подробнее об искусственном интеллекте в самоуправляемых автомобилях.
Безопасность и наблюдение: Используется в системах безопасности для обнаружения несанкционированного доступа, мониторинга толпы на предмет необычной активности или распознавания лиц. Практический пример см. в руководстве по системам охранной сигнализации Ultralytics.
Анализ медицинских изображений: Помогает радиологам обнаруживать аномалии, такие как опухоли или переломы, на рентгеновских, компьютерных и магнитно-резонансных снимках. Изучите решения ИИ в здравоохранении и конкретные приложения, такие как обнаружение опухолей, с помощью YOLO11.
Аналитика розничной торговли: Позволяет использовать такие приложения, как автоматизированные кассы, мониторинг полок и искусственный интеллект для управления запасами.

Инструменты и технологии

Разработка и развертывание моделей, основанных на этих архитектурах, часто предполагает использование специализированных инструментов и фреймворков:

Фреймворки для глубокого обучения: Такие библиотеки, как PyTorch (посетите официальный сайт PyTorch) и TensorFlow (посетите сайт TensorFlow), предоставляют основные строительные блоки.
Библиотеки компьютерного зрения: OpenCV (официальный сайт: OpenCV.org) предлагает широкий набор функций для обработки и манипулирования изображениями.
Модели и платформы: Ultralytics предоставляет современные модели Ultralytics YOLO и платформу Ultralytics HUB, упрощающие процесс обучения пользовательских моделей, управления наборами данных (например, COCO) и развертывания решений.
Открытый исходный код: Многие архитектуры и инструменты для обнаружения объектов разрабатываются под лицензией с открытым исходным кодом, что способствует сотрудничеству и инновациям в сообществе ИИ. На таких ресурсах, как GitHub, размещено множество проектов в этой области.

Архитектуры обнаружения объектов

Гибкое решение для корпоративного лицензирования, обеспечивающее инновации

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Простое обучение моделям YOLO с помощью Ultralytics HUB

Как работают архитектуры обнаружения объектов

Типы архитектур

Применение в реальном мире

Инструменты и технологии

Подробнее в этой категории

Эволюция и будущее робототехники в производстве

Расширение возможностей интеллектуального наблюдения с помощью Ultralytics YOLO11

Руководство по архитектуре U-Net и ее применению

Присоединяйтесь к сообществу Ultralytics