Зелёная проверка
Ссылка копируется в буфер обмена

Эволюция обнаружения объектов и Ultralytics' YOLO Модели

Присоединяйся к нам, так как мы оглянемся на эволюцию обнаружения объектов. Мы сосредоточимся на том, как модели YOLO (You Only Look Once) продвинулись за последние годы.

Компьютерное зрение - это подобласть искусственного интеллекта (ИИ), которая фокусируется на обучении машин видеть и понимать изображения и видео, подобно тому, как человек воспринимает реальный мир. В то время как распознавание объектов или идентификация действий являются второй натурой для людей, эти задачи требуют специфических и специализированных методов компьютерного зрения, когда речь идет о машинах. Например, одной из ключевых задач в компьютерном зрении является обнаружение объектов, которое включает в себя идентификацию и определение местоположения объектов на изображениях или видео. 

С 1960-х годов исследователи работали над тем, чтобы улучшить способы обнаружения объектов компьютерами. Ранние методы, такие как сопоставление шаблонов, предполагали скольжение по заранее заданному шаблону на изображении для поиска совпадений. Хотя эти подходы были инновационными, они не справлялись с изменениями размера, ориентации и освещения объекта. Сегодня у нас есть такие продвинутые модели, как Ultralytics YOLO11 которые могут с впечатляющей точностью обнаруживать даже маленькие и частично скрытые объекты, называемые окклюзивными.

Поскольку компьютерное зрение продолжает развиваться, важно оглянуться на то, как развивались эти технологии. В этой статье мы изучим эволюцию обнаружения объектов и прольем свет на трансформацию моделейYOLO (You Only Look Once). Давай начнем!

Истоки компьютерного зрения

Прежде чем погрузиться в тему обнаружения объектов, давай посмотрим, как зародилось компьютерное зрение. Истоки компьютерного зрения уходят корнями в конец 1950-х - начало 1960-х годов, когда ученые начали изучать, как мозг обрабатывает визуальную информацию. В ходе экспериментов с кошками исследователи Дэвид Хьюбел и Торстен Визель обнаружили, что мозг реагирует на простые паттерны, такие как края и линии. Это легло в основу идеи извлечения признаков - концепции, согласно которой зрительные системы обнаруживают и распознают основные признаки в изображениях, такие как края, прежде чем перейти к более сложным паттернам.

Рис. 1. Изучение того, как мозг кошки реагирует на световые полосы, помогло развить извлечение признаков в компьютерном зрении.

Примерно в то же время появилась новая технология, способная превращать физические изображения в цифровые форматы, что вызвало интерес к тому, как машины могут обрабатывать визуальную информацию. В 1966 году проект Массачусетского технологического института (MIT) Summer Vision Project продвинулся дальше. Хотя проект не увенчался полным успехом, его целью было создание системы, которая могла бы отделять передний план от фона на изображениях. Для многих в сообществе Vision AI этот проект стал официальным началом компьютерного зрения как научной области.

Понимание истории обнаружения объектов

По мере развития компьютерного зрения в конце 1990-х - начале 2000-х годов методы обнаружения объектов перешли от базовых техник вроде сопоставления шаблонов к более продвинутым подходам. Одним из популярных методов был каскад Хаара, который стал широко использоваться для таких задач, как обнаружение лиц. Он работал, сканируя изображения с помощью скользящего окна, проверяя наличие специфических особенностей, таких как края или текстуры, в каждом участке изображения, а затем объединяя эти особенности для обнаружения объектов, таких как лица. Haar Cascade работал намного быстрее, чем предыдущие методы.

Рис. 2. Использование каскада Хаара для распознавания лиц.

Наряду с ними появились такие методы, как гистограмма ориентированных градиентов (HOG) и машины опорных векторов (SVM). HOG использовал технику скользящего окна для анализа изменения света и теней на небольших участках изображения, что помогало идентифицировать объекты по их форме. Затем SVM классифицировали эти признаки, чтобы определить принадлежность объекта. Эти методы повышали точность, но все равно с трудом работали в реальных условиях и были медленнее современных.

Необходимость обнаружения объектов в реальном времени

В 2010-х годах развитие глубокого обучения и конволюционных нейронных сетей (CNN) привело к серьезным изменениям в области обнаружения объектов. CNN позволили компьютерам автоматически изучать важные характеристики на основе больших объемов данных, что сделало обнаружение гораздо более точным. 

Ранние модели вроде R-CNN (Region-based Convolutional Neural Networks) значительно улучшили точность, помогая идентифицировать объекты более точно, чем старые методы. 

Однако эти модели были медленными, так как обрабатывали изображения в несколько этапов, что делало их непрактичными для применения в реальном времени в таких областях, как самодвижущиеся автомобили или видеонаблюдение.

Чтобы ускорить процесс, были разработаны более эффективные модели. Такие модели, как Fast R-CNN и Faster R-CNN, помогли усовершенствовать способ выбора областей интереса и сократить количество шагов, необходимых для обнаружения. Хотя это и ускорило обнаружение объектов, оно все еще не было достаточно быстрым для многих реальных приложений, которым требовались мгновенные результаты. Растущий спрос на обнаружение в реальном времени подтолкнул к разработке еще более быстрых и эффективных решений, которые могли бы сбалансировать и скорость, и точность.

Рис. 3. Сравнение скоростей R-CNN, Fast R-CNN и Faster R-CNN.

YOLO Модели (You Only Look Once): Важная веха

YOLO это модель обнаружения объектов, которая переосмыслила компьютерное зрение, позволив в реальном времени обнаруживать множество объектов на изображениях и видео, что делает ее совершенно уникальной по сравнению с предыдущими методами обнаружения. Вместо того чтобы анализировать каждый обнаруженный объект по отдельности, архитектураYOLO рассматривает обнаружение объектов как единую задачу, предсказывая и местоположение, и класс объектов за один раз с помощью CNN. 

Модель работает, разделяя изображение на сетку, каждая часть которой отвечает за обнаружение объектов в соответствующей области. Она делает несколько предсказаний для каждого участка и отфильтровывает менее уверенные результаты, оставляя только точные. 

Рис 4. Обзор того, как работает YOLO .

Внедрение YOLO в приложения компьютерного зрения сделало обнаружение объектов намного быстрее и эффективнее, чем более ранние модели. Благодаря своей скорости и точности YOLO быстро стал популярным выбором для решений реального времени в таких отраслях, как производство, здравоохранение и робототехника.

Еще один важный момент, который стоит отметить: поскольку YOLO был с открытым исходным кодом, разработчики и исследователи могли постоянно совершенствовать его, что привело к появлению еще более продвинутых версий.

Путь от YOLO до YOLO11

YOLO модели постоянно улучшались с течением времени, развивая достижения каждой версии. Наряду с улучшением производительности, эти усовершенствования сделали модели более простыми в использовании для людей с разным уровнем технического опыта.

Например, когда Ultralytics YOLOv5 было введено новое приложение, развертывание моделей стало более простым с PyTorchчто позволило более широкому кругу пользователей работать с продвинутым ИИ. Он объединил точность и удобство использования, дав возможность большему числу людей реализовать обнаружение объектов без необходимости быть экспертами по кодированию.

Рис. 5. Эволюция моделей YOLO .

Ultralytics YOLOv8 продолжил этот прогресс, добавив поддержку таких задач, как сегментация экземпляров, и сделав модели более гибкими. Стало проще использовать YOLO как для базовых, так и для более сложных приложений, что сделало его полезным в самых разных сценариях.

В последней модели, Ultralytics YOLO11были проведены дополнительные оптимизации. Уменьшив количество параметров и одновременно повысив точность, он стал более эффективным для задач реального времени. Будь ты опытным разработчиком или новичком в области ИИ, YOLO11 предлагает продвинутый подход к обнаружению объектов, который легко доступен.

Знакомство с YOLO11: новые возможности и улучшения

YOLO11Представленный на Ultralytics' ежегодном гибридном мероприятии YOLO Vision 2024 (YV24), он поддерживает те же задачи компьютерного зрения, что и YOLOv8, такие как обнаружение объектов, сегментация экземпляров, классификация изображений и оценка позы. Таким образом, пользователи могут легко перейти на эту новую модель без необходимости корректировать свои рабочие процессы. Кроме того, обновленная архитектура YOLO11делает предсказания еще более точными. На самом деле YOLO11m достигает более высокой средней точности (mAP) на наборе данных COCO с 22 % меньшим количеством параметров, чем YOLOv8m.

YOLO11 Кроме того, он создан для эффективной работы на различных платформах, от смартфонов и других пограничных устройств до более мощных облачных систем. Такая гибкость обеспечивает плавную работу на различных аппаратных установках для приложений реального времени. Кроме того, YOLO11 работает быстрее и эффективнее, сокращая вычислительные затраты и ускоряя время вывода. Независимо от того, используешь ли ты пакетUltralytics Python или бескодовый Ultralytics HUB, его легко интегрировать YOLO11 в твои существующие рабочие процессы.

Будущее моделей YOLO и обнаружения объектов

Влияние продвинутого обнаружения объектов на приложения реального времени и краевой ИИ уже ощущается во всех отраслях. Поскольку такие отрасли, как нефть и газ, здравоохранение и розничная торговля, все больше полагаются на ИИ, спрос на быстрое и точное обнаружение объектов продолжает расти. YOLO11 призван ответить на этот спрос, обеспечивая высокопроизводительное обнаружение даже на устройствах с ограниченной вычислительной мощностью. 

По мере развития краевого ИИ, вероятно, такие модели обнаружения объектов, как YOLO11 , станут еще более важными для принятия решений в реальном времени в средах, где скорость и точность имеют решающее значение. Благодаря постоянному совершенствованию дизайна и адаптивности, будущее обнаружения объектов, похоже, принесет еще больше инноваций в самых разных сферах применения.

Основные выводы

Обнаружение объектов прошло долгий путь развития, пройдя путь от простых методов до передовых технологий глубокого обучения, которые мы видим сегодня. YOLO модели были в центре этого прогресса, обеспечивая более быстрое и точное обнаружение в реальном времени в различных отраслях. YOLO11 опирается на это наследие, повышая эффективность, сокращая вычислительные затраты и увеличивая точность, что делает его надежным выбором для различных приложений реального времени. Благодаря постоянным достижениям в области искусственного интеллекта и компьютерного зрения будущее обнаружения объектов представляется ярким, и есть возможность еще больше повысить скорость, точность и адаптивность.

Любопытно узнать об искусственном интеллекте? Оставайся на связи с нашим сообществом, чтобы продолжать учиться! Загляни в наш репозиторий на GitHub, чтобы узнать, как мы используем ИИ для создания инновационных решений в таких отраслях, как производство и здравоохранение. 🚀

Логотип FacebookЛоготип ТвиттераЛоготип LinkedInСимвол копирования-ссылки

Читайте больше в этой категории

Давай вместе построим будущее
искусственного интеллекта!

Начни свое путешествие с будущим машинного обучения