Зелёная проверка
Ссылка копируется в буфер обмена

YOLO12 объясняется: Реальные приложения и случаи использования

Открой для себя YOLO12, новейшую модель компьютерного зрения! Узнай, как ее архитектура, ориентированная на внимание, и технология FlashAttention улучшают задачи обнаружения объектов в разных отраслях.

Компьютерное зрение - это ветвь искусственного интеллекта (ИИ), которая помогает машинам понимать изображения и видео. Это область, которая развивается невероятными темпами, потому что исследователи и разработчики ИИ постоянно расширяют границы. ИИ-сообщество всегда стремится сделать модели быстрее, умнее и эффективнее. Один из последних прорывов - YOLO12, новейшее дополнение к серии моделей YOLO (You Only Look Once), выпущенное 18 февраля 2025 года.

YOLO12 была разработана исследователями из Университета Буффало, SUNY (Государственный университет Нью-Йорка) и Университета Китайской академии наук. В новом уникальном подходе YOLO12 вводит механизмы внимания, позволяющие модели фокусироваться на наиболее существенных частях изображения, а не обрабатывать все одинаково. 

Также в нем есть FlashAttention - техника, которая ускоряет обработку данных, используя при этом меньше памяти, и механизм зонального внимания, призванный имитировать то, как человек естественным образом фокусируется на центральных объектах.

Благодаря этим улучшениям YOLO12n стал на 2,1% точнее, чем YOLOv10n, а YOLO12m - на +1,0% точнее, чем YOLO11m. Однако за это приходится платить - YOLO12n на 9% медленнее, чем YOLOv10n, а YOLO12m на 3% медленнее, чем YOLO11m.

Рис. 1. Пример использования YOLO12 для обнаружения объектов.

В этой статье мы рассмотрим, чем отличается YOLO12, как она сравнивается с предыдущими версиями и где ее можно применить.

Дорога к выходу YOLO12

Серия моделейYOLO - это набор моделей компьютерного зрения, предназначенных для обнаружения объектов в реальном времени, то есть они могут быстро идентифицировать и находить объекты на изображениях и видео. Со временем каждая версия улучшалась в плане скорости, точности и эффективности.

Например, Ultralytics YOLOv5выпущенная в 2020 году, получила широкое распространение благодаря тому, что ее можно было быстро и легко обучить и развернуть. Позже, Ultralytics YOLOv8 улучшила его, предложив дополнительную поддержку задач компьютерного зрения, таких как сегментация экземпляров и отслеживание объектов. 

Совсем недавно, Ultralytics YOLO11 сосредоточилась на улучшении обработки данных в реальном времени, сохраняя баланс между скоростью и точностью. Например, YOLO11m имел на 22% меньше параметров, чем YOLOv8m, но при этом показал лучшую производительность обнаружения на наборе данных COCO - широко используемом эталоне для оценки моделей обнаружения объектов.

Опираясь на эти достижения, YOLO12 меняет способ обработки визуальной информации. Вместо того чтобы одинаково относиться ко всем частям изображения, он отдает предпочтение наиболее значимым областям, повышая точность обнаружения. Проще говоря, YOLO12 опирается на предыдущие улучшения и стремится к большей точности.

Ключевые особенности YOLO12

YOLO12 представляет несколько улучшений, которые повышают эффективность задач компьютерного зрения, сохраняя при этом скорость обработки данных в реальном времени. Вот обзор ключевых особенностей YOLO12:

  • Архитектура, ориентированная на внимание: Вместо того чтобы одинаково относиться ко всем частям изображения, YOLO12 фокусируется на самых важных областях. Это повышает точность и сокращает ненужную обработку, делая обнаружение более четким и эффективным даже на загроможденных изображениях.
  • FlashAttention: YOLO12 ускоряет анализ изображений и при этом использует меньше памяти. Благодаря FlashAttention (алгоритму, экономящему память) он оптимизирует работу с данными, снижая нагрузку на оборудование и делая задачи реального времени более плавными и надежными.
  • Остаточно эффективные сети агрегирования слоев (R-ELAN): YOLO12 организует свои слои более эффективно с помощью R-ELAN, что улучшает обработку и обучение модели на основе данных. Это делает обучение более стабильным, распознавание объектов - более четким, а требования к вычислительным ресурсам - более низкими, поэтому модель эффективно работает в различных средах.

Чтобы понять, как эти функции работают в реальной жизни, рассмотри торговый центр. YOLO12 может помочь отследить покупателей, определить украшения магазина, такие как растения в горшках или рекламные вывески, а также заметить неправильно расставленные или брошенные товары. 

Его архитектура, ориентированная на внимание, помогает ему сосредоточиться на самых важных деталях, а FlashAttention обеспечивает быструю обработку всех данных, не перегружая систему. Таким образом, операторам торговых центров становится проще повышать безопасность, организовывать планировку магазинов и улучшать общее впечатление от покупок.

Рис. 2. Обнаружение объектов в торговом центре с помощью YOLO12.

Однако YOLO12 также имеет некоторые ограничения, которые следует учитывать:

  • Более медленное время обучения: Из-за своей архитектуры YOLO12 требует больше времени на обучение по сравнению с YOLO11.
  • Проблемы с экспортом: Некоторые пользователи могут столкнуться с трудностями при экспорте моделей YOLO12, особенно при их интеграции в специфические среды развертывания.

Понимание эталонов производительности YOLO12

YOLO12 выпускается в нескольких вариантах, каждый из которых оптимизирован под разные нужды. Маленькие версии (nano и small) ставят во главу угла скорость и эффективность, что делает их идеальными для мобильных устройств и пограничных вычислений. В средних и больших версиях соблюдается баланс между скоростью и точностью, а YOLO12x (extra large) предназначен для высокоточных приложений, таких как промышленная автоматизация, медицинская визуализация и передовые системы наблюдения.

Благодаря этим вариациям YOLO12 обеспечивает разный уровень производительности в зависимости от размера модели. Бенчмарк-тесты показывают, что некоторые варианты YOLO12 превосходят YOLOv10 и YOLO11 по точности, достигая более высокой средней точности (mAP). 

Однако некоторые модели, например YOLO12m, YOLO12l и YOLO12x, обрабатывают изображения медленнее, чем YOLO11, демонстрируя компромисс между точностью обнаружения и скоростью. Несмотря на это, YOLO12 остается эффективной, требуя меньше параметров, чем многие другие модели, хотя все равно использует больше, чем YOLO11. Это делает ее отличным выбором для приложений, где точность важнее скорости.

Рис. 3. Сравнение Ultralytics YOLO11 и YOLO12.

Использование YOLO12 через пакет Ultralytics Python

YOLO12 поддерживается пакетомUltralytics Python и прост в использовании, что делает его доступным как для новичков, так и для профессионалов. С помощью всего нескольких строк кода пользователи могут загружать предварительно обученные модели, выполнять различные задачи компьютерного зрения на изображениях и видео, а также обучать YOLO12 на пользовательских наборах данных. Пакет Ultralytics Python упрощает этот процесс, избавляя от необходимости выполнять сложные шаги по настройке.

Например, вот шаги, которые ты должен выполнить, чтобы использовать YOLO12 для обнаружения объектов:

  • Установи пакет Ultralytics : Сначала установиPython Ultralytics , который предоставляет инструменты, необходимые для эффективного запуска YOLO12. Это гарантирует, что все зависимости установлены правильно.
  • Загрузи предварительно обученную модель YOLO12: Выбери подходящий вариант YOLO12 (nano, small, medium, large или extra large) в зависимости от уровня точности и скорости, необходимых для решения твоей задачи.
  • Предоставь изображение или видео: Введи изображение или видеофайл, который ты хочешь проанализировать. YOLO12 также может обрабатывать живое видео для обнаружения в режиме реального времени.
  • Запусти процесс обнаружения: Модель сканирует визуальные данные, идентифицирует объекты и расставляет вокруг них ограничительные рамки. Она помечает каждый обнаруженный объект, указывая его предсказанный класс и балл доверия.
  • Настрой параметры обнаружения: Ты также можешь изменить такие параметры, как пороги доверия, чтобы точно настроить точность обнаружения и производительность.
  • Сохрани или используй полученный результат: Обработанное изображение или видео, теперь содержащее обнаруженные объекты, можно сохранить или интегрировать в приложение для дальнейшего анализа, автоматизации или принятия решений.

Эти шаги делают YOLO12 удобным для использования в самых разных сферах, от видеонаблюдения и отслеживания розничной торговли до медицинской визуализации и автономных транспортных средств.

Практическое применение YOLO12

YOLO12 можно использовать в различных реальных приложениях благодаря поддержке обнаружения объектов, сегментации экземпляров, классификации изображений, оценке позы и ориентированному обнаружению объектов (OBB). 

Рис. 4. YOLO12 поддерживает такие задачи, как обнаружение объектов и сегментация экземпляров.

Однако, как мы уже говорили, в моделях YOLO12 точность стоит на первом месте, а не скорость, то есть они обрабатывают изображения немного дольше, чем более ранние версии. Этот компромисс делает YOLO12 идеальным для приложений, где точность важнее скорости в реальном времени, например:

  • Медицинская визуализация: YOLO12 можно настраивать на обнаружение опухолей или аномалий на рентгеновских и магнитно-резонансных снимках с высокой точностью, что делает его полезным инструментом для врачей и радиологов, которым нужен точный анализ изображений для диагностики.
  • Контроль качества на производстве: Он может помочь выявить дефекты продукции в процессе производства, гарантируя, что на рынок попадут только высококачественные изделия, при этом сокращая количество отходов и повышая эффективность.
    ‍.
  • Криминалистический анализ: Правоохранительные органы могут точно настроить YOLO12 для анализа записей с камер наблюдения и сбора улик. В уголовных расследованиях точность крайне важна для выявления ключевых деталей.
  • Точное земледелие: Фермеры могут использовать YOLO12 для анализа состояния посевов, обнаружения болезней или нашествия вредителей, а также для мониторинга состояния почвы. Точные оценки помогают оптимизировать стратегии ведения сельского хозяйства, что приводит к повышению урожайности и рациональному использованию ресурсов.

Начало работы с YOLO12

Прежде чем запускать YOLO12, важно убедиться, что твоя система соответствует необходимым требованиям.

Технически YOLO12 может работать на любом выделенном GPU (Graphics Processing Unit). По умолчанию он не требует FlashAttention, поэтому может работать на большинстве GPU без него. Однако включение FlashAttention может быть особенно полезно при работе с большими наборами данных или изображениями высокого разрешения, так как помогает предотвратить замедления, снизить потребление памяти и повысить эффективность обработки. 

Чтобы использовать FlashAttention, тебе понадобитсяGPU NVIDIA одной из этих серий: Turing (T4, Quadro RTX), Ampere (серия RTX 30, A30, A40, A100), Ada Lovelace (серия RTX 40) или Hopper (H100, H200).

Помня о юзабилити и доступности, пакет Ultralytics Python пока не поддерживает вывод FlashAttention, так как его установка может быть довольно сложной с технической точки зрения. Чтобы узнать больше о том, как начать работу с YOLO12 и оптимизировать его производительность, ознакомься с официальной документацией Ultralytics .

Основные выводы

По мере развития компьютерного зрения модели становятся все более точными и эффективными. YOLO12 улучшает задачи компьютерного зрения, такие как обнаружение объектов, сегментация объектов и классификация изображений, благодаря обработке, ориентированной на внимание, и FlashAttention, повышая точность и оптимизируя использование памяти.

В то же время компьютерное зрение стало доступным как никогда. YOLO12 легко использовать с помощью пакета Ultralytics Python , а его нацеленность на точность, а не на скорость, хорошо подходит для медицинской визуализации, промышленных проверок и робототехники - приложений, где точность имеет ключевое значение.

Любопытно узнать об искусственном интеллекте? Заходи в наш репозиторий GitHub и общайся с нашим сообществом. Изучи инновации в таких отраслях, как ИИ в самодвижущихся автомобилях и компьютерное зрение в сельском хозяйстве, на страницах наших решений. Ознакомься с нашими вариантами лицензирования и воплоти свои проекты Vision AI в жизнь. 🚀

Логотип FacebookЛоготип ТвиттераЛоготип LinkedInСимвол копирования-ссылки

Читайте больше в этой категории

Давай вместе построим будущее
искусственного интеллекта!

Начни свое путешествие с будущим машинного обучения