Глоссарий

Обнаружение объектов

Открой для себя возможности обнаружения объектов - идентифицируй и находи объекты на изображениях или видео с помощью передовых моделей, таких как YOLO. Изучи реальные приложения!

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Обнаружение объектов - это фундаментальная задача компьютерного зрения (КВ), которая заключается в определении наличия, местоположения и типа одного или нескольких объектов на изображении или видео. В отличие от классификации изображений, которая присваивает единую метку всему изображению (например, "кошка"), обнаружение объектов точно очерчивает каждый экземпляр объекта с помощью ограничительной рамки и присваивает ему метку класса (например, "кошка" по координатам x, y, ширина, высота). Эта способность позволяет машинам понимать визуальные сцены с большей детализацией, более точно имитируя зрительное восприятие человека и обеспечивая более сложное взаимодействие с окружающей средой. Это основная технология, лежащая в основе многих современных приложений искусственного интеллекта (ИИ).

Как работает обнаружение объектов

Обнаружение объектов обычно сочетает в себе две основные задачи: классификацию объектов (определение того, "какой" объект присутствует) и локализацию объектов (определение того, "где" объект находится, обычно через координаты bounding box). Современные системы обнаружения объектов в значительной степени опираются на глубокое обучение (ГОО), в частности на конволюционные нейронные сети (КНС). Эти сети обучаются на больших аннотированных наборах данных, таких как популярный набор данных COCO или Open Images V7, для изучения визуальных особенностей и паттернов, связанных с различными классами объектов.

Во время работы (известной как вывод) обученная модель обрабатывает входное изображение или видеокадр. На выходе она выдает список потенциальных объектов, каждый из которых представлен ограничивающей рамкой, предсказанную метку класса (например, "автомобиль", "человек", "собака") и балл доверия, указывающий на уверенность модели в том, что объект обнаружен. Такие техники, как немаксимальное подавление (NMS), часто используются для уточнения этих результатов путем удаления лишних, перекрывающих друг друга боксов для одного и того же объекта. Производительность этих моделей обычно оценивается с помощью таких метрик, как Intersection over Union (IoU) и mean Average Precision (mAP).

Обнаружение объектов по сравнению со смежными задачами

Важно отличать обнаружение объектов от других родственных задач компьютерного зрения:

  • Классификация изображений: Присваивает единственную метку всему изображению (например, "На этом изображении есть собака"). Она не определяет местонахождение объекта (объектов).
  • Сегментация изображений: Классифицирует каждый пиксель на изображении, создавая подробную карту границ объектов. Это более детализированный метод, чем определение границ объектов.
    • Семантическая сегментация: Присваивает каждому пикселю метку класса (например, все пиксели, принадлежащие к классу "автомобили", помечаются как "автомобиль"). Она не делает различий между разными экземплярами одного и того же класса.
    • Сегментация экземпляра: Присваивает каждому пикселю метку класса и различает отдельные экземпляры одного и того же класса (например, "автомобиль 1", "автомобиль 2"). Он сочетает в себе обнаружение и сегментацию.
  • Слежение за объектом: Представляет собой обнаружение объектов в последовательных видеокадрах и присвоение уникального идентификатора каждому объекту, чтобы отслеживать его перемещение во времени. Это основано на обнаружении объектов.

Типы моделей обнаружения объектов

Модели обнаружения объектов обычно делятся на две основные категории, различающиеся в первую очередь подходом и компромиссом между скоростью и точностью:

  • Двухступенчатые детекторы объектов: Эти модели сначала предлагают области интереса (RoIs), в которых могут находиться объекты, а затем классифицируют объекты в этих областях. В качестве примера можно привести семейство R-CNN (Fast R-CNN, Faster R-CNN). Они часто достигают высокой точности, но, как правило, работают медленнее.
  • Одноступенчатые детекторы объектов: Эти модели напрямую предсказывают ограничительные рамки и вероятности классов по входному изображению за один проход, без отдельного этапа предложения регионов. В качестве примера можно привести Ultralytics YOLO (You Only Look Once), SSD (Single Shot MultiBox Detector) и RetinaNet. Они обычно быстрее, что делает их подходящими для выводов в реальном времени, иногда ценой немного меньшей точности по сравнению с двухэтапными методами, хотя такие модели, как YOLO11 эффективно преодолевают этот разрыв. Более новые подходы, такие как детекторы без якорей, еще больше упрощают одноэтапный процесс. Ты можешь изучить сравнения между различными моделями YOLO и другими архитектурами, такими как RT-DETR.

Применение в реальном мире

Обнаружение объектов - это краеугольная технология, позволяющая решать множество задач в самых разных отраслях:

  1. Автономные системы: Необходимы для самоуправляемых автомобилей и робототехники, позволяя транспортным средствам и роботам воспринимать окружающую обстановку, обнаруживая пешеходов, другие автомобили, препятствия, дорожные знаки и конкретные предметы для взаимодействия. Такие компании, как Tesla и Waymo, во многом полагаются на надежное обнаружение объектов.
  2. Безопасность и наблюдение: Используется в системах охранной сигнализации для обнаружения нарушителей, наблюдения за толпой(Vision AI in Crowd Management), идентификации брошенных предметов и повышения эффективности мониторинга в общественных местах и частных владениях.
  3. Аналитика розничной торговли: Она позволяет использовать такие приложения, как автоматизированные кассовые системы, управление запасами на основе искусственного интеллекта, мониторинг полок (обнаружение отсутствующих на складе товаров) и анализ трафика покупателей.
  4. Здравоохранение: Применяется в анализе медицинских изображений для обнаружения аномалий вроде опухолей(Using YOLO11 for Tumor Detection) или повреждений на рентгеновских снимках, КТ и МРТ, помогая радиологам в диагностике(Radiology: Artificial Intelligence).
  5. Сельское хозяйство: Позволяет использовать методы точного земледелия, такие как обнаружение вредителей, болезней, сорняков, подсчет плодов(компьютерное зрение в сельском хозяйстве) и мониторинг состояния урожая(ИИ в сельскохозяйственных решениях).
  6. Производство: Используется для контроля качества путем обнаружения дефектов в продукции на сборочных линиях(Quality Inspection in Manufacturing), обеспечения безопасности путем мониторинга опасных зон и автоматизации роботизированных задач.

Инструменты и обучение

Разработка и развертывание моделей обнаружения объектов включает в себя различные инструменты и техники. Популярные фреймворки глубокого обучения, такие как PyTorch и TensorFlow предоставляют фундаментальные библиотеки. Библиотеки компьютерного зрения, такие как OpenCV, предлагают основные функции обработки изображений.

Ultralytics предоставляет самые современные технологии Ultralytics YOLO модели, включая YOLOv8 и YOLO11оптимизированные для скорости и точности. Платформа Ultralytics HUB еще больше упрощает рабочий процесс, предлагая инструменты для управления наборами данных, обучения пользовательских моделей, настройки гиперпараметров и облегчения развертывания моделей. Эффективное обучение моделей часто выигрывает от стратегий увеличения данных и таких техник, как трансферное обучение с использованием предварительно обученных весов из таких наборов данных, как ImageNet.

Читать полностью