Открой для себя YOLO12, новейшую модель компьютерного зрения! Узнай, как ее архитектура, ориентированная на внимание, и технология FlashAttention улучшают задачи обнаружения объектов в разных отраслях.
Компьютерное зрение - это ветвь искусственного интеллекта (ИИ), которая помогает машинам понимать изображения и видео. Это область, которая развивается невероятными темпами, потому что исследователи и разработчики ИИ постоянно расширяют границы. ИИ-сообщество всегда стремится сделать модели быстрее, умнее и эффективнее. Один из последних прорывов - YOLO12, новейшее дополнение к серии моделей YOLO (You Only Look Once), выпущенное 18 февраля 2025 года.
YOLO12 была разработана исследователями из Университета Буффало, SUNY (Государственный университет Нью-Йорка) и Университета Китайской академии наук. В новом уникальном подходе YOLO12 вводит механизмы внимания, позволяющие модели фокусироваться на наиболее существенных частях изображения, а не обрабатывать все одинаково.
Также в нем есть FlashAttention - техника, которая ускоряет обработку данных, используя при этом меньше памяти, и механизм зонального внимания, призванный имитировать то, как человек естественным образом фокусируется на центральных объектах.
Благодаря этим улучшениям YOLO12n стал на 2,1% точнее, чем YOLOv10n, а YOLO12m - на +1,0% точнее, чем YOLO11m. Однако за это приходится платить - YOLO12n на 9% медленнее, чем YOLOv10n, а YOLO12m на 3% медленнее, чем YOLO11m.
В этой статье мы рассмотрим, чем отличается YOLO12, как она сравнивается с предыдущими версиями и где ее можно применить.
Серия моделейYOLO - это набор моделей компьютерного зрения, предназначенных для обнаружения объектов в реальном времени, то есть они могут быстро идентифицировать и находить объекты на изображениях и видео. Со временем каждая версия улучшалась в плане скорости, точности и эффективности.
Например, Ultralytics YOLOv5выпущенная в 2020 году, получила широкое распространение благодаря тому, что ее можно было быстро и легко обучить и развернуть. Позже, Ultralytics YOLOv8 улучшила его, предложив дополнительную поддержку задач компьютерного зрения, таких как сегментация экземпляров и отслеживание объектов.
Совсем недавно, Ultralytics YOLO11 сосредоточилась на улучшении обработки данных в реальном времени, сохраняя баланс между скоростью и точностью. Например, YOLO11m имел на 22% меньше параметров, чем YOLOv8m, но при этом показал лучшую производительность обнаружения на наборе данных COCO - широко используемом эталоне для оценки моделей обнаружения объектов.
Опираясь на эти достижения, YOLO12 меняет способ обработки визуальной информации. Вместо того чтобы одинаково относиться ко всем частям изображения, он отдает предпочтение наиболее значимым областям, повышая точность обнаружения. Проще говоря, YOLO12 опирается на предыдущие улучшения и стремится к большей точности.
YOLO12 представляет несколько улучшений, которые повышают эффективность задач компьютерного зрения, сохраняя при этом скорость обработки данных в реальном времени. Вот обзор ключевых особенностей YOLO12:
Чтобы понять, как эти функции работают в реальной жизни, рассмотри торговый центр. YOLO12 может помочь отследить покупателей, определить украшения магазина, такие как растения в горшках или рекламные вывески, а также заметить неправильно расставленные или брошенные товары.
Его архитектура, ориентированная на внимание, помогает ему сосредоточиться на самых важных деталях, а FlashAttention обеспечивает быструю обработку всех данных, не перегружая систему. Таким образом, операторам торговых центров становится проще повышать безопасность, организовывать планировку магазинов и улучшать общее впечатление от покупок.
Однако YOLO12 также имеет некоторые ограничения, которые следует учитывать:
YOLO12 выпускается в нескольких вариантах, каждый из которых оптимизирован под разные нужды. Маленькие версии (nano и small) ставят во главу угла скорость и эффективность, что делает их идеальными для мобильных устройств и пограничных вычислений. В средних и больших версиях соблюдается баланс между скоростью и точностью, а YOLO12x (extra large) предназначен для высокоточных приложений, таких как промышленная автоматизация, медицинская визуализация и передовые системы наблюдения.
Благодаря этим вариациям YOLO12 обеспечивает разный уровень производительности в зависимости от размера модели. Бенчмарк-тесты показывают, что некоторые варианты YOLO12 превосходят YOLOv10 и YOLO11 по точности, достигая более высокой средней точности (mAP).
Однако некоторые модели, например YOLO12m, YOLO12l и YOLO12x, обрабатывают изображения медленнее, чем YOLO11, демонстрируя компромисс между точностью обнаружения и скоростью. Несмотря на это, YOLO12 остается эффективной, требуя меньше параметров, чем многие другие модели, хотя все равно использует больше, чем YOLO11. Это делает ее отличным выбором для приложений, где точность важнее скорости.
YOLO12 поддерживается пакетомUltralytics Python и прост в использовании, что делает его доступным как для новичков, так и для профессионалов. С помощью всего нескольких строк кода пользователи могут загружать предварительно обученные модели, выполнять различные задачи компьютерного зрения на изображениях и видео, а также обучать YOLO12 на пользовательских наборах данных. Пакет Ultralytics Python упрощает этот процесс, избавляя от необходимости выполнять сложные шаги по настройке.
Например, вот шаги, которые ты должен выполнить, чтобы использовать YOLO12 для обнаружения объектов:
Эти шаги делают YOLO12 удобным для использования в самых разных сферах, от видеонаблюдения и отслеживания розничной торговли до медицинской визуализации и автономных транспортных средств.
YOLO12 можно использовать в различных реальных приложениях благодаря поддержке обнаружения объектов, сегментации экземпляров, классификации изображений, оценке позы и ориентированному обнаружению объектов (OBB).
Однако, как мы уже говорили, в моделях YOLO12 точность стоит на первом месте, а не скорость, то есть они обрабатывают изображения немного дольше, чем более ранние версии. Этот компромисс делает YOLO12 идеальным для приложений, где точность важнее скорости в реальном времени, например:
Прежде чем запускать YOLO12, важно убедиться, что твоя система соответствует необходимым требованиям.
Технически YOLO12 может работать на любом выделенном GPU (Graphics Processing Unit). По умолчанию он не требует FlashAttention, поэтому может работать на большинстве GPU без него. Однако включение FlashAttention может быть особенно полезно при работе с большими наборами данных или изображениями высокого разрешения, так как помогает предотвратить замедления, снизить потребление памяти и повысить эффективность обработки.
Чтобы использовать FlashAttention, тебе понадобитсяGPU NVIDIA одной из этих серий: Turing (T4, Quadro RTX), Ampere (серия RTX 30, A30, A40, A100), Ada Lovelace (серия RTX 40) или Hopper (H100, H200).
Помня о юзабилити и доступности, пакет Ultralytics Python пока не поддерживает вывод FlashAttention, так как его установка может быть довольно сложной с технической точки зрения. Чтобы узнать больше о том, как начать работу с YOLO12 и оптимизировать его производительность, ознакомься с официальной документацией Ultralytics .
По мере развития компьютерного зрения модели становятся все более точными и эффективными. YOLO12 улучшает задачи компьютерного зрения, такие как обнаружение объектов, сегментация объектов и классификация изображений, благодаря обработке, ориентированной на внимание, и FlashAttention, повышая точность и оптимизируя использование памяти.
В то же время компьютерное зрение стало доступным как никогда. YOLO12 легко использовать с помощью пакета Ultralytics Python , а его нацеленность на точность, а не на скорость, хорошо подходит для медицинской визуализации, промышленных проверок и робототехники - приложений, где точность имеет ключевое значение.
Любопытно узнать об искусственном интеллекте? Заходи в наш репозиторий GitHub и общайся с нашим сообществом. Изучи инновации в таких отраслях, как ИИ в самодвижущихся автомобилях и компьютерное зрение в сельском хозяйстве, на страницах наших решений. Ознакомься с нашими вариантами лицензирования и воплоти свои проекты Vision AI в жизнь. 🚀
Начни свое путешествие с будущим машинного обучения