Открой для себя возможности обнаружения объектов - идентифицируй и находи объекты на изображениях или видео с помощью передовых моделей, таких как YOLO. Изучи реальные приложения!
Обнаружение объектов - это фундаментальная задача компьютерного зрения (КВ), которая заключается в определении наличия, местоположения и типа одного или нескольких объектов на изображении или видео. В отличие от классификации изображений, которая присваивает единую метку всему изображению (например, "кошка"), обнаружение объектов точно очерчивает каждый экземпляр объекта с помощью ограничительной рамки и присваивает ему метку класса (например, "кошка" по координатам x, y, ширина, высота). Эта способность позволяет машинам понимать визуальные сцены с большей детализацией, более точно имитируя зрительное восприятие человека и обеспечивая более сложное взаимодействие с окружающей средой. Это основная технология, лежащая в основе многих современных приложений искусственного интеллекта (ИИ).
Обнаружение объектов обычно сочетает в себе две основные задачи: классификацию объектов (определение того, "какой" объект присутствует) и локализацию объектов (определение того, "где" объект находится, обычно через координаты bounding box). Современные системы обнаружения объектов в значительной степени опираются на глубокое обучение (ГОО), в частности на конволюционные нейронные сети (КНС). Эти сети обучаются на больших аннотированных наборах данных, таких как популярный набор данных COCO или Open Images V7, для изучения визуальных особенностей и паттернов, связанных с различными классами объектов.
Во время работы (известной как вывод) обученная модель обрабатывает входное изображение или видеокадр. На выходе она выдает список потенциальных объектов, каждый из которых представлен ограничивающей рамкой, предсказанную метку класса (например, "автомобиль", "человек", "собака") и балл доверия, указывающий на уверенность модели в том, что объект обнаружен. Такие техники, как немаксимальное подавление (NMS), часто используются для уточнения этих результатов путем удаления лишних, перекрывающих друг друга боксов для одного и того же объекта. Производительность этих моделей обычно оценивается с помощью таких метрик, как Intersection over Union (IoU) и mean Average Precision (mAP).
Важно отличать обнаружение объектов от других родственных задач компьютерного зрения:
Модели обнаружения объектов обычно делятся на две основные категории, различающиеся в первую очередь подходом и компромиссом между скоростью и точностью:
Обнаружение объектов - это краеугольная технология, позволяющая решать множество задач в самых разных отраслях:
Разработка и развертывание моделей обнаружения объектов включает в себя различные инструменты и техники. Популярные фреймворки глубокого обучения, такие как PyTorch и TensorFlow предоставляют фундаментальные библиотеки. Библиотеки компьютерного зрения, такие как OpenCV, предлагают основные функции обработки изображений.
Ultralytics предоставляет самые современные технологии Ultralytics YOLO модели, включая YOLOv8 и YOLO11оптимизированные для скорости и точности. Платформа Ultralytics HUB еще больше упрощает рабочий процесс, предлагая инструменты для управления наборами данных, обучения пользовательских моделей, настройки гиперпараметров и облегчения развертывания моделей. Эффективное обучение моделей часто выигрывает от стратегий увеличения данных и таких техник, как трансферное обучение с использованием предварительно обученных весов из таких наборов данных, как ImageNet.