Сравнение Ultralytics YOLO11 с предыдущими моделями YOLO

От автоматизации повседневных задач до помощи в принятии обоснованных решений в режиме реального времени - искусственный интеллект (ИИ) меняет будущее различных отраслей. Одна из особенно увлекательных областей ИИ - компьютерное зрение, иначе называемое Vision AI. Он сосредоточен на том, чтобы дать машинам возможность анализировать и интерпретировать визуальные данные так же, как это делают люди.

В частности, модели компьютерного зрения являются движущей силой инноваций, повышающих как безопасность, так и эффективность. Например, эти модели используются в самоуправляемых автомобилях для обнаружения пешеходов и в камерах безопасности для круглосуточного наблюдения за помещениями.

Одними из самых известных моделей компьютерного зрения являются модели YOLO (You Only Look Once), известные своими возможностями обнаружения объектов в реальном времени. Со временем модели YOLO совершенствовались, и каждая новая версия предлагала более высокую производительность и большую гибкость.

Более новые версии, такие как Ultralytics YOLO11 могут решать самые разные задачи, такие как сегментация экземпляров, классификация изображений, оценка позы и отслеживание нескольких объектов, с большей точностью, скоростью и аккуратностью, чем когда-либо прежде.

В этой статье мы сравним Ultralytics YOLOv8, YOLOv9, YOLOv10 и Ultralytics YOLO11 , чтобы лучше понять, как развивались эти модели. Мы проанализируем их ключевые особенности, результаты бенчмарков и различия в производительности. Давай приступим!

Обзор Ultralytics YOLOv8

YOLOv8, выпущенная Ultralytics 10 января 2023 года, стала большим шагом вперед по сравнению с предыдущими моделями YOLO . Она оптимизирована для точного обнаружения в режиме реального времени и сочетает в себе хорошо проверенные подходы с инновационными обновлениями для достижения лучших результатов.

Не ограничиваясь обнаружением объектов, он также поддерживает следующие задачи компьютерного зрения: сегментацию объектов, оценку позы, обнаружение объектов по ориентированным ограничивающим коробкам (OBB) и классификацию изображений. Еще одна важная особенность YOLOv8 заключается в том, что он доступен в пяти различных вариантах моделей - Nano, Small, Medium, Large и X, - так что ты можешь выбрать подходящий баланс скорости и точности в зависимости от твоих потребностей.

Благодаря своей универсальности и высокой производительности YOLOv8 можно использовать во многих реальных приложениях, таких как системы безопасности, умные города, здравоохранение и промышленная автоматизация.

Рис. 1. Управление парковками в умных городах с помощью YOLOv8.

‍

Ключевые особенности YOLOv8

Вот более подробный взгляд на некоторые другие ключевые особенности YOLOv8:

Улучшенная архитектура обнаружения: В YOLOv8 используется улучшенная магистраль CSPDarknet. Эта основа оптимизирована для извлечения признаков - процесса выявления и захвата важных паттернов или деталей из входных изображений, которые помогают модели делать точные прогнозы.
Головка обнаружения: В ней используется безъякорная, раздельная конструкция, то есть она не полагается на заданные формы ограничительных рамок (якоря), а учится предсказывать местоположение объекта напрямую. Благодаря раздельной установке задачи классификации объекта и предсказания его местоположения (регрессия) решаются отдельно, что помогает повысить точность и ускорить обучение.
Баланс между точностью и скоростью: эта модель достигает впечатляющей точности при сохранении быстрого времени вывода, что делает ее подходящей как для облачных, так и для пограничных сред.
Удобство для пользователя: YOLOv8 разработан так, чтобы с ним было легко начать работать - ты можешь начать прогнозировать и видеть результаты всего за несколько минут, используя пакетUltralytics Python .

YOLOv9 фокусируется на вычислительной эффективности

YOLOv9 был выпущен 21 февраля 2024 года Чиен-Яо Вангом и Хонг-Юаном Марком Лиао из Института информационных наук Academia Sinica, Тайвань. Он поддерживает такие задачи, как обнаружение объектов и сегментация экземпляров.

Эта модель основана на Ultralytics YOLOv5 и вводит два основных новшества: Программируемая градиентная информация (PGI) и обобщенная эффективная сеть агрегирования слоев (GELAN).

PGI помогает YOLOv9 сохранять важную информацию при обработке данных через свои слои, что приводит к более точным результатам. Тем временем GELAN улучшает то, как модель использует свои слои, повышая производительность и эффективность вычислений. Благодаря этим обновлениям YOLOv9 может решать задачи в реальном времени на пограничных устройствах и в мобильных приложениях, где вычислительные ресурсы часто ограничены.

Рис. 2. Понимание того, как GELAN улучшает точность YOLOv9.

‍

Ключевые особенности YOLOv9

Вот взгляд на некоторые другие ключевые особенности YOLOv8:

Высокая точность с эффективностью: YOLOv9 обеспечивает высокую точность обнаружения, не потребляя при этом много вычислительной мощности, что делает его отличным выбором при ограниченных ресурсах.
‍
Легкие модели: Легкие варианты моделей YOLOv9 оптимизированы для пограничных и мобильных развертываний.
‍
Простой в использовании: YOLOv9 поддерживается пакетом Ultralytics Python , поэтому его легко настроить и запустить в различных средах, независимо от того, используешь ли ты код или командную строку.

YOLOv10 позволяет обнаруживать объекты без NMS

YOLOv10 была представлена 23 мая 2024 года исследователями из Университета Цинхуа и ориентирована на обнаружение объектов в реальном времени. В ней устранены недостатки предыдущих версий YOLO : убрана необходимость в немаксимальном подавлении (NMS), этапе постобработки, который используется для устранения дублирующих обнаружений, и доработан общий дизайн модели. Это позволяет быстрее и эффективнее обнаруживать объекты, сохраняя при этом современную точность.

Важнейшей частью того, что делает это возможным, является подход к обучению, известный как последовательное назначение двух меток. Он сочетает в себе две стратегии: одну, которая позволяет нескольким предсказаниям учиться на одном и том же объекте (one-to-many), и другую, которая сосредоточена на выборе лучшего единственного предсказания (one-to-one). Поскольку обе стратегии следуют одним и тем же правилам сопоставления, модель самостоятельно учится избегать дубликатов, поэтому NMS не требуется.

Рис. 3. YOLOv10 использует последовательное назначение двойных меток для обучения без НМС.

‍

В архитектуре YOLOv10 также используется улучшенная магистраль CSPNet для более эффективного изучения особенностей и горловина PAN (Path Aggregation Network), которая объединяет информацию с разных уровней, что позволяет ей лучше обнаруживать как маленькие, так и большие объекты. Эти усовершенствования позволяют использовать YOLOv10 для реальных приложений в производстве, розничной торговле и автономном вождении.

Ключевые особенности YOLOv10

Вот некоторые другие отличительные особенности YOLOv10:

Свертки с большими ядрами: Модель использует свертки с большими ядрами, чтобы захватить больше контекста из более широких областей изображения, что помогает ей лучше понять сцену в целом.
‍
Модули частичного самовнушения: Модель включает в себя модули частичного самовнушения, чтобы сфокусироваться на самых важных частях изображения, не используя слишком много вычислительной мощности, эффективно повышая производительность.

Уникальный вариант модели: Наряду с обычными размерами YOLOv10 - Nano, Small, Medium, Large и X - существует также специальная версия под названием YOLOv10b (Balanced). Это более широкая модель, а значит, она обрабатывает большее количество элементов на каждом слое, что помогает повысить точность, сохраняя баланс между скоростью и размером.
‍
Удобно для пользователя: YOLOv10 совместим с пакетом Ultralytics Python , что делает его простым в использовании.

Ultralytics YOLO11: повышенная скорость и точность

В этом году, 30 сентября, Ultralytics официально представила YOLO11 - одну из последних моделей серии YOLO - на своем ежегодном гибридном мероприятии YOLO Vision 2024 (YV24).

В этом выпуске появились значительные улучшения по сравнению с предыдущими версиями. YOLO11 стал быстрее, точнее и высокоэффективнее. Он поддерживает весь спектр задач компьютерного зрения, с которыми знакомы пользователи YOLOv8 , включая обнаружение объектов, сегментацию объектов и классификацию изображений. Кроме того, она сохраняет совместимость с рабочими процессами YOLOv8 , что позволяет пользователям без проблем перейти на новую версию.

Вдобавок ко всему, YOLO11 разработана для удовлетворения широкого спектра вычислительных потребностей - от легких пограничных устройств до мощных облачных систем. Модель доступна как в виде версии с открытым исходным кодом, так и в виде корпоративной версии, что делает ее адаптируемой для различных случаев использования.

Это отличный вариант для точных задач, таких как медицинская визуализация и обнаружение спутников, а также для более широкого применения в автономных транспортных средствах, сельском хозяйстве и здравоохранении.

Рис. 4. Использование Ultralytics YOLO11 для обнаружения, подсчета и отслеживания трафика.

‍

Ключевые особенности YOLO11

Вот некоторые из других уникальных особенностей YOLO11:

Быстрое и эффективное детектирование: В YOLO11 используется головка обнаружения, рассчитанная на минимальную задержку, сфокусированная на скорости в последних слоях предсказания без ущерба для производительности.
‍
Улучшенное извлечение признаков: Оптимизированная архитектура позвоночника и шеи улучшает извлечение признаков, что приводит к более точным предсказаниям.
‍
Бесшовное развертывание на разных платформах: YOLO11 оптимизирован для эффективной работы на пограничных устройствах, облачных платформах и графических процессорах NVIDIA , что обеспечивает адаптивность в различных средах.

Бенчмаркинг моделей YOLO на наборе данных COCO

Изучая разные модели, не всегда легко сравнивать их, просто глядя на их характеристики. Вот тут-то и приходит на помощь бенчмаркинг. Запустив все модели на одном и том же наборе данных, мы можем объективно измерить и сравнить их производительность. Давай посмотрим, как каждая модель работает на наборе данных COCO.

Если сравнивать модели YOLO , то каждая новая версия приносит заметные улучшения в плане точности, скорости и гибкости. В частности, YOLO11m делает рывок, так как использует на 22% меньше параметров, чем YOLOv8m, а значит, легче и быстрее в работе. Также, несмотря на меньший размер, модель достигает более высокой средней точности (mAP) на наборе данных COCO. Эта метрика измеряет, насколько хорошо модель обнаруживает и локализует объекты, поэтому более высокая mAP означает более точные предсказания.

Рис. 5. Бенчмаркинг YOLO11 и других моделей YOLO на наборе данных COCO.

‍

Тестирование и сравнение моделей YOLO на видео

Давай изучим, как эти модели работают в реальной ситуации.

Чтобы сравнить YOLOv8, YOLOv9, YOLOv10 и YOLO11, все четыре системы были запущены на одном и том же дорожном видео с использованием показателя уверенности 0,3 (модель отображает обнаружения только тогда, когда она уверена, что правильно идентифицировала объект, по крайней мере на 30%) и размера изображения 640 для справедливой оценки. Результаты обнаружения и отслеживания объектов выявили ключевые различия в точности обнаружения, скорости и точности.

С первого кадра YOLO11 уловил крупные транспортные средства вроде грузовиков, которые YOLOv10 пропустил. YOLOv8 и YOLOv9 показали достойную производительность, но она варьировалась в зависимости от условий освещения и размера объекта. Маленькие, удаленные автомобили оставались проблемой для всех моделей, хотя YOLO11 продемонстрировал заметное улучшение в обнаружении и этих объектов.

Рис. 6. Сравнение YOLOv8, YOLOv9, YOLOv10 и YOLO11.

‍

Что касается скорости, то все модели работали в диапазоне от 10 до 20 миллисекунд на кадр, достаточно быстро, чтобы справляться с задачами в реальном времени со скоростью более 50 FPS. С одной стороны, YOLOv8 и YOLOv9 обеспечивали стабильные и надежные обнаружения на протяжении всего видео. Интересно, что YOLOv10, рассчитанный на меньшую задержку, был быстрее, но демонстрировал некоторые несоответствия при обнаружении определенных типов объектов.

YOLO11, напротив, выделялся своей точностью, предлагая сильный баланс между скоростью и точностью. Хотя ни одна из моделей не показала идеальных результатов в каждом кадре, сравнение бок о бок наглядно продемонстрировало, что YOLO11 продемонстрировал лучшую общую производительность.

Какая модель YOLO лучше всего подходит для задач компьютерного зрения?

Выбор модели для проекта зависит от его конкретных требований. Например, в одних приложениях приоритетом может быть скорость, а в других - более высокая точность или ограничения на развертывание, которые влияют на решение.

Еще один важный фактор - тип задач компьютерного зрения, которые тебе нужно решать. Если тебе нужна более широкая гибкость при решении различных задач, то YOLOv8 и YOLO11 - хорошие варианты.

Выберешь ли ты YOLOv8 или YOLO11 , зависит от твоих потребностей. YOLOv8 - отличный вариант, если ты новичок в компьютерном зрении и ценишь большое сообщество, больше обучающих материалов и обширные сторонние интеграции.

С другой стороны, если тебе нужна передовая производительность с лучшей точностью и скоростью, то YOLO11 - лучший выбор, хотя у него меньше сообщество и меньше интеграций из-за того, что это более новая версия.

Основные выводы

От Ultralytics YOLOv8 до Ultralytics YOLO11- эволюция модельного ряда YOLO отражает последовательное движение в сторону более интеллектуальных моделей компьютерного зрения. Каждая версия YOLO приносит значимые улучшения в плане скорости, точности и аккуратности.

По мере того как компьютерное зрение продолжает развиваться, эти модели предлагают надежные решения реальных задач, начиная от обнаружения объектов и заканчивая автономными системами. Постоянное развитие моделей YOLO показывает, как далеко продвинулась эта область и как много нового мы можем ожидать в будущем.

Чтобы узнать больше об искусственном интеллекте, посети наш репозиторий на GitHub и присоединяйся к нашему сообществу. Открой для себя достижения в разных отраслях, от Vision AI в производстве до компьютерного зрения в здравоохранении. Ознакомься с нашими вариантами лицензирования, чтобы начать свои проекты Vision AI уже сегодня.

Сравнение Ultralytics YOLO11 с предыдущими моделями YOLO