Эволюция обнаружения объектов и модели YOLO от Ultralytics

18 октября 2024 г.
Присоединяйтесь к нам, чтобы взглянуть на эволюцию обнаружения объектов. Мы сосредоточимся на том, как модели YOLO (You Only Look Once) продвинулись за последние годы.

18 октября 2024 г.
Присоединяйтесь к нам, чтобы взглянуть на эволюцию обнаружения объектов. Мы сосредоточимся на том, как модели YOLO (You Only Look Once) продвинулись за последние годы.
Компьютерное зрение - это область искусственного интеллекта (ИИ), которая занимается обучением машин видеть и понимать изображения и видео, подобно тому, как человек воспринимает реальный мир. В то время как для человека распознавание объектов или идентификация действий являются второй натурой, для машин эти задачи требуют особых и специализированных методов компьютерного зрения. Например, одной из ключевых задач компьютерного зрения является обнаружение объектов, которое включает в себя идентификацию и определение местоположения объектов на изображениях или видео.
С 1960-х годов исследователи работают над усовершенствованием методов обнаружения объектов с помощью компьютеров. Ранние методы, такие как сопоставление шаблонов, предполагали перемещение заранее определенного шаблона по изображению для поиска совпадений. Хотя эти подходы были инновационными, они не справлялись с изменениями размера, ориентации и освещения объекта. Сегодня у нас есть продвинутые модели, такие как Ultralytics YOLO11, которые могут с впечатляющей точностью обнаруживать даже маленькие и частично скрытые объекты, известные как окклюдированные объекты.
Поскольку компьютерное зрение продолжает развиваться, важно оглянуться на то, как развивались эти технологии. В этой статье мы рассмотрим эволюцию обнаружения объектов и прольем свет на трансформацию моделей YOLO (You Only Look Once). Давайте начнем!
Прежде чем перейти к обнаружению объектов, давайте посмотрим, как зародилось компьютерное зрение. Истоки компьютерного зрения восходят к концу 1950-х - началу 1960-х годов, когда ученые начали изучать, как мозг обрабатывает визуальную информацию. В ходе экспериментов с кошками исследователи Дэвид Хьюбел и Торстен Визель обнаружили, что мозг реагирует на простые паттерны, такие как края и линии. Это послужило основой для идеи выделения признаков - концепции, согласно которой зрительные системы обнаруживают и распознают основные признаки изображений, такие как края, прежде чем перейти к более сложным паттернам.
Примерно в то же время появилась новая технология, позволяющая переводить физические изображения в цифровой формат, что вызвало интерес к тому, как машины могут обрабатывать визуальную информацию. В 1966 году Массачусетский технологический институт (MIT) в рамках проекта Summer Vision Project продвинулся дальше. Хотя проект не увенчался полным успехом, его целью было создание системы, которая могла бы отделять передний план от фона на изображениях. Для многих представителей сообщества Vision AI этот проект стал официальным началом развития компьютерного зрения как научной области.
По мере развития компьютерного зрения в конце 1990-х - начале 2000-х годов методы обнаружения объектов перешли от базовых техник, таких как сопоставление шаблонов, к более продвинутым подходам. Одним из популярных методов стал каскад Хаара, который широко использовался для таких задач, как распознавание лиц. Он работал путем сканирования изображений с помощью скользящего окна, проверки наличия специфических особенностей, таких как края или текстуры, в каждом участке изображения, а затем комбинирования этих особенностей для обнаружения объектов, таких как лица. Каскад Хаара был намного быстрее предыдущих методов.
Наряду с ними появились такие методы, как гистограмма ориентированных градиентов (HOG) и машины опорных векторов (SVM). HOG использует технику скользящего окна для анализа изменения света и тени на небольших участках изображения, что помогает идентифицировать объекты по их форме. Затем SVM классифицировали эти признаки, чтобы определить идентичность объекта. Эти методы повышали точность, но все равно не справлялись с задачей в реальных условиях и были медленнее современных.
В 2010-х годах развитие глубокого обучения и конволюционных нейронных сетей (CNN) привело к серьезным изменениям в области обнаружения объектов. CNN позволили компьютерам автоматически узнавать важные характеристики из больших объемов данных, что сделало обнаружение гораздо более точным.
Ранние модели, такие как R-CNN (конволюционные нейронные сети на основе регионов), значительно повысили точность, помогая идентифицировать объекты более точно, чем старые методы.
Однако эти модели были медленными, поскольку обрабатывали изображения в несколько этапов, что делало их непрактичными для применения в реальном времени в таких областях, как самоуправляемые автомобили или видеонаблюдение.
Чтобы ускорить процесс, были разработаны более эффективные модели. Такие модели, как Fast R-CNN и Faster R-CNN, помогли усовершенствовать процесс выбора областей интереса и сократить количество шагов, необходимых для обнаружения. Хотя это и ускорило процесс обнаружения объектов, он все еще не был достаточно быстрым для многих реальных приложений, которым требовались мгновенные результаты. Растущий спрос на обнаружение в реальном времени подтолкнул к разработке еще более быстрых и эффективных решений, которые могли бы сбалансировать скорость и точность.
YOLO - это модель обнаружения объектов, которая переосмысливает компьютерное зрение, позволяя в реальном времени обнаруживать множество объектов на изображениях и видео, что делает ее совершенно уникальной по сравнению с предыдущими методами обнаружения. Вместо того чтобы анализировать каждый обнаруженный объект по отдельности, архитектура YOLO рассматривает обнаружение объектов как единую задачу, предсказывая местоположение и класс объектов за один раз с помощью CNN.
Модель работает по принципу разделения изображения на сетку, каждая часть которой отвечает за обнаружение объектов в соответствующей области. Она делает несколько прогнозов для каждого участка и отфильтровывает менее достоверные результаты, оставляя только точные.
Внедрение YOLO в приложения компьютерного зрения сделало обнаружение объектов намного быстрее и эффективнее, чем предыдущие модели. Благодаря своей скорости и точности YOLO быстро стал популярным выбором для решений реального времени в таких отраслях, как производство, здравоохранение и робототехника.
Еще один важный момент: поскольку YOLO был с открытым исходным кодом, разработчики и исследователи могли постоянно совершенствовать его, что привело к появлению еще более продвинутых версий.
Модели YOLO постоянно совершенствовались с течением времени, развиваясь в каждой версии. Наряду с улучшением производительности, эти усовершенствования сделали модели более удобными в использовании для людей с разным уровнем технического опыта.
Например, когда была представлена Ultralytics YOLOv5, развертывание моделей стало проще с помощью PyTorch, что позволило более широкому кругу пользователей работать с передовым ИИ. Это позволило объединить точность и удобство, дав возможность большему числу людей реализовать обнаружение объектов без необходимости быть экспертами в области кодирования.
Ultralytics YOLOv8 продолжила этот прогресс, добавив поддержку таких задач, как сегментация экземпляров, и сделав модели более гибкими. YOLO стало проще использовать как для базовых, так и для более сложных приложений, что делает его полезным в различных сценариях.
В последней модели, Ultralytics YOLO11, были проведены дополнительные оптимизации. Благодаря уменьшению количества параметров и повышению точности он стал более эффективным для задач реального времени. Независимо от того, являетесь ли вы опытным разработчиком или новичком в области искусственного интеллекта, YOLO11 предлагает передовой подход к обнаружению объектов, который легко доступен.
YOLO11, представленный на ежегодном гибридном мероприятии Ultralytics YOLO Vision 2024 (YV24), поддерживает те же задачи компьютерного зрения, что и YOLOv8, такие как обнаружение объектов, сегментация экземпляров, классификация изображений и оценка позы. Таким образом, пользователи могут легко перейти на эту новую модель без необходимости корректировать свои рабочие процессы. Кроме того, обновленная архитектура YOLO11 делает прогнозы еще более точными. Так, YOLO11m достигает более высокой средней точности (mAP) на наборе данных COCO с 22 % меньшим количеством параметров, чем YOLOv8m.
YOLO11 также создан для эффективной работы на различных платформах, от смартфонов и других периферийных устройств до более мощных облачных систем. Такая гибкость обеспечивает бесперебойную работу приложений в реальном времени на различных аппаратных установках. Кроме того, YOLO11 работает быстрее и эффективнее, сокращая вычислительные затраты и ускоряя время вычислений. Независимо от того, используете ли вы пакет Ultralytics Python или не имеющий кода Ultralytics HUB, вы легко интегрируете YOLO11 в существующие рабочие процессы.
Влияние передового обнаружения объектов на приложения реального времени и краевой ИИ уже ощущается во всех отраслях. Поскольку такие отрасли, как нефтегазовая, здравоохранение и розничная торговля, все больше полагаются на ИИ, спрос на быстрое и точное обнаружение объектов продолжает расти. YOLO11 призван удовлетворить этот спрос, обеспечив высокопроизводительное обнаружение даже на устройствах с ограниченной вычислительной мощностью.
По мере развития краевого ИИ, вероятно, модели обнаружения объектов, подобные YOLO11, станут еще более важными для принятия решений в реальном времени в средах, где скорость и точность имеют решающее значение. Благодаря постоянному совершенствованию дизайна и адаптивности, будущее обнаружения объектов обещает принести еще больше инноваций в самых разных областях применения.
Обнаружение объектов прошло долгий путь эволюции от простых методов до передовых технологий глубокого обучения, которые мы видим сегодня. Модели YOLO лежат в основе этого прогресса, обеспечивая более быстрое и точное обнаружение в реальном времени в различных отраслях. YOLO11 развивает это наследие, повышая эффективность, снижая вычислительные затраты и увеличивая точность, что делает его надежным выбором для различных приложений реального времени. Благодаря постоянным достижениям в области искусственного интеллекта и компьютерного зрения, будущее обнаружения объектов представляется ярким, и есть возможности для еще большего повышения скорости, точности и адаптивности.
Вам интересно узнать об искусственном интеллекте? Оставайтесь с нашим сообществом и продолжайте учиться! Загляните в наш репозиторий GitHub, чтобы узнать, как мы используем ИИ для создания инновационных решений в таких отраслях, как производство и здравоохранение. 🚀