Архитектуры обнаружения объектов
Откройте для себя возможности архитектур обнаружения объектов - основы ИИ для понимания изображений. Узнайте о типах, инструментах и реальных приложениях уже сегодня!
Архитектуры обнаружения объектов являются основой для моделей глубокого обучения, которые выполняют обнаружение объектов. Эта задача компьютерного зрения (CV) включает в себя определение наличия и местоположения объектов на изображении или видео, обычно путем рисования ограничительной рамки вокруг них и присвоения метки класса. Архитектура определяет структуру модели, в том числе то, как она обрабатывает визуальную информацию и делает прогнозы. Выбор архитектуры очень важен, поскольку он напрямую влияет на скорость, точность и вычислительные требования модели.
Как работают архитектуры обнаружения объектов
Большинство современных архитектур обнаружения объектов состоит из трех основных компонентов, которые работают последовательно:
- Магистраль: Это сверточная нейронная сеть (CNN), часто предварительно обученная на большом наборе данных для классификации изображений, например ImageNet. Ее основная роль заключается в том, чтобы действовать как экстрактор признаков, преобразуя входное изображение в серию карт признаков, которые отражают иерархическую визуальную информацию. К популярным опорным сетям относятся ResNet и CSPDarknet, которая используется во многих моделях YOLO. Подробнее об основах CNN можно узнать из таких источников, как подробный обзор IBM.
- Шея: Этот дополнительный компонент находится между позвоночником и головой. Он служит для агрегирования и уточнения карт признаков, созданных позвоночником, часто объединяя признаки из разных масштабов, чтобы улучшить обнаружение объектов разных размеров. В качестве примера можно привести сети пирамид признаков (FPN).
- Головка обнаружения: Головка - это последний компонент, отвечающий за составление прогнозов. Он получает обработанные карты признаков от шеи (или непосредственно от позвоночника) и выводит вероятности классов и координаты ограничительной рамки для каждого обнаруженного объекта.
Типы архитектур
Архитектуры обнаружения объектов делятся на категории в зависимости от подхода к прогнозированию, что приводит к компромиссу между скоростью и точностью. Вы можете изучить подробные сравнения моделей, чтобы увидеть эти компромиссы в действии.
- Двухэтапные детекторы объектов: Эти модели, такие как семейство R-CNN, сначала определяют набор областей-кандидатов на объект (предложения областей), а затем классифицируют каждую область. Этот двухэтапный процесс позволяет достичь высокой точности, но часто работает медленнее.
- Одноэтапные детекторы объектов: Архитектуры, подобные семейству Ultralytics YOLO (You Only Look Once), рассматривают обнаружение объектов как единую регрессионную задачу. Они предсказывают ограничительные рамки и вероятности классов непосредственно по всему изображению за один проход, что позволяет делать выводы в режиме реального времени.
- Безъякорные детекторы: В последнее время в одноступенчатых детекторах появились безъякорные архитектуры, такие как Ultralytics YOLO11, которые устраняют необходимость в предопределенных якорных ящиках. Это упрощает процесс обучения и часто приводит к созданию более быстрых и эффективных моделей.
Применение в реальном мире
Архитектуры обнаружения объектов используются в многочисленных приложениях искусственного интеллекта в различных отраслях:
- Автономные транспортные средства: Для самоуправляемых автомобилей важно воспринимать окружающую обстановку, обнаруживая пешеходов, другие транспортные средства, дорожные знаки и разметку. Такие компании, как Waymo, в значительной степени полагаются на сложное обнаружение объектов. Подробнее об искусственном интеллекте в самоуправляемых автомобилях.
- Безопасность и наблюдение: Используется в системах безопасности для обнаружения несанкционированного доступа, мониторинга толпы на предмет необычной активности или распознавания лиц. Практический пример см. в руководстве по системам охранной сигнализации Ultralytics.
- Анализ медицинских изображений: Помогает радиологам обнаруживать аномалии, такие как опухоли или переломы, на рентгеновских, компьютерных и магнитно-резонансных снимках. Изучите решения ИИ в здравоохранении и конкретные приложения, такие как обнаружение опухолей, с помощью YOLO11.
- Аналитика розничной торговли: Позволяет использовать такие приложения, как автоматизированные кассы, мониторинг полок и искусственный интеллект для управления запасами.
Инструменты и технологии
Разработка и развертывание моделей, основанных на этих архитектурах, часто предполагает использование специализированных инструментов и фреймворков: