Зелёная проверка
Ссылка копируется в буфер обмена

Что такое маска R-CNN и как она работает?

Узнай, как можно использовать Mask R-CNN для точной сегментации объектов на изображениях и видео в различных сферах применения.

Такие инновации, как роботы на складах, самоуправляемые автомобили, безопасно передвигающиеся по оживленным улицам, беспилотники, проверяющие урожай, и системы искусственного интеллекта, проверяющие продукцию на заводах, становятся все более распространенными по мере внедрения ИИ. Ключевой технологией, определяющей эти инновации, является компьютерное зрение- направление ИИ, которое позволяет машинам понимать и интерпретировать визуальные данные.

Например, обнаружение объектов - это задача компьютерного зрения, которая помогает идентифицировать и находить объекты на изображениях с помощью ограничительных рамок. Хотя ограничительные рамки дают полезную информацию, они позволяют лишь приблизительно определить положение объекта и не могут передать его точную форму или границы. Это делает их менее эффективными в приложениях, требующих точной идентификации.

Чтобы решить эту проблему, исследователи разработали модели сегментации, которые захватывают точные контуры объектов, обеспечивая детализацию на уровне пикселей для более точного обнаружения и анализа.

Mask R-CNN - одна из таких моделей. Представленная в 2017 году Facebook AI Research (FAIR), она построена на основе более ранних моделей, таких как R-CNN, Fast R-CNN и Faster R-CNN. Являясь важной вехой в истории компьютерного зрения, Mask R-CNN проложила путь для более продвинутых моделей, таких как Ultralytics YOLO11.

В этой статье мы рассмотрим, что такое Mask R-CNN, как он работает, его применение и какие усовершенствования появились после него, приведя к YOLO11.

Обзор маски R-CNN

Mask R-CNN, что расшифровывается как Mask Region-based Convolutional Neural Network, - это модель глубокого обучения, которая предназначена для задач компьютерного зрения, таких как обнаружение объектов и сегментация экземпляров. 

Сегментация объектов выходит за рамки традиционного обнаружения объектов, не только определяя их на изображении, но и точно очерчивая каждый из них. Она присваивает каждому обнаруженному объекту уникальную метку и фиксирует его точную форму на уровне пикселей. Такой детальный подход позволяет четко различать перекрывающиеся объекты и точно обрабатывать сложные формы.

Mask R-CNN основан на Faster R-CNN, который обнаруживает и маркирует объекты, но не определяет их точные формы. Mask R-CNN улучшает эту функцию, определяя точные пиксели, из которых состоит каждый объект, что позволяет проводить гораздо более детальный и точный анализ изображений.

Рис. 1. Сравнение обнаружения объектов и сегментации экземпляров.

Взгляд на архитектуру Mask R-CNN и на то, как она работает

Mask R-CNN использует пошаговый подход для точного обнаружения и сегментирования объектов. Он начинает с извлечения ключевых признаков с помощью глубокой нейронной сети (многослойной модели, которая учится на данных), затем определяет потенциальные области объектов с помощью сети предложения областей (компонента, который предлагает вероятные области объектов) и, наконец, уточняет эти области, создавая подробные маски сегментации (точные контуры объектов), которые передают точную форму каждого объекта.

Далее мы пройдемся по каждому шагу, чтобы лучше понять, как работает Mask R-CNN.

Рис. 2. Обзор архитектуры Mask R-CNN.

Начни с извлечения признаков

Первый шаг в архитектуре Mask R-CNN - разбить изображение на ключевые части, чтобы модель могла понять, что в нем находится. Думай об этом так же, как когда ты смотришь на фотографию и, естественно, замечаешь такие детали, как формы, цвета и края. Модель делает нечто подобное с помощью глубокой нейронной сети, называемой "хребтом" (часто ResNet-50 или ResNet-101), которая действует как глаза, сканируя изображение и улавливая ключевые детали.

Поскольку объекты на изображениях могут быть как очень маленькими, так и очень большими, в Mask R-CNN используется сеть Feature Pyramid Network. Это похоже на наличие разных увеличительных стекол, которые позволяют модели видеть как мелкие детали, так и общую картину, гарантируя, что будут замечены объекты любого размера.

Как только эти важные особенности извлечены, модель переходит к определению местоположения потенциальных объектов на изображении, создавая основу для дальнейшего анализа.

Предлагая потенциальные области на изображении с помощью объектов

После того как изображение было обработано на предмет ключевых особенностей, за дело берется Сеть предложения регионов. Эта часть модели смотрит на изображение и предлагает области, которые, скорее всего, содержат объекты.

Для этого она генерирует множество возможных местоположений объекта, которые называются якорями. Затем сеть оценивает эти якоря и выбирает наиболее перспективные из них для дальнейшего анализа. Таким образом, модель фокусируется только на тех областях, которые с наибольшей вероятностью могут быть интересными, а не проверяет каждое отдельное место на изображении.

Рис. 3. Пример сети предложения регионов.

Улучшение извлеченных признаков 

Когда ключевые области определены, следующим шагом будет уточнение деталей, извлеченных из этих регионов. В более ранних моделях использовался метод под названием ROI Pooling (Region of Interest Pooling) для захвата особенностей из каждой области, но эта техника иногда приводила к небольшим смещениям при изменении размеров регионов, что делало ее менее эффективной - особенно для небольших или перекрывающихся объектов.

Маска R-CNN улучшает эту задачу, используя технику, называемую ROI Align (Region of Interest Align). Вместо округления координат, как это делает ROI Pooling, ROI Align использует билинейную интерполяцию для более точной оценки значений пикселей. Билинейная интерполяция - это метод, который вычисляет новое значение пикселя путем усреднения значений его четырех ближайших соседей, что создает более плавные переходы. Это позволяет сохранить правильное выравнивание характеристик по отношению к исходному изображению, что приводит к более точному обнаружению и сегментации объектов.

Например, во время футбольного матча двух игроков, стоящих близко друг к другу, можно принять за одного, потому что их ограничительные рамки накладываются друг на друга. ROI Align поможет разделить их, сохранив различимость их форм. 

Рис. 4. Маска R-CNN использует ROI Align.

Классифицируй предметы и предсказывай их маски

После того как ROI Align обработает изображение, следующим шагом будет классификация объектов и точная настройка их расположения. Модель рассматривает каждый извлеченный регион и решает, какой объект в нем находится. Она присваивает различным категориям балл вероятности и выбирает наилучшее соответствие.

В то же время он корректирует ограничительные рамки, чтобы они лучше подходили к объектам. Первоначальные рамки могут быть расположены не идеально, поэтому это помогает повысить точность, убедившись, что каждая рамка плотно окружает обнаруженный объект.

Наконец, Mask R-CNN делает дополнительный шаг: он параллельно генерирует детальную маску сегментации для каждого объекта.

Маска R-CNN и ее применение в реальном времени

Когда эта модель появилась, она была встречена с большим воодушевлением со стороны сообщества ИИ и вскоре стала использоваться в различных приложениях. Его способность обнаруживать и сегментировать объекты в реальном времени сделала его игровым чейнджером в различных отраслях.

Например, отслеживание исчезающих животных в дикой природе - сложная задача. Многие виды перемещаются по густым лесам, из-за чего специалистам по охране природы сложно за ними уследить. Традиционные методы используют ловушки для камер, дроны и спутниковые снимки, но сортировка всех этих данных вручную отнимает много времени. Ошибки в идентификации и пропущенные встречи могут замедлить работу по сохранению природы.

Распознавая уникальные особенности, такие как полосы тигра, пятна жирафа или форма ушей слона, Mask R-CNN может обнаруживать и сегментировать животных на изображениях и видео с большей точностью. Даже если животные частично скрыты деревьями или стоят близко друг к другу, модель может разделить их и идентифицировать каждого по отдельности, что делает мониторинг дикой природы более быстрым и надежным.

Рис. 5. Обнаружение и сегментирование животных с помощью Mask R-CNN.

Ограничения масочного R-CNN

Несмотря на свою историческую значимость в области обнаружения и сегментации объектов, Mask R-CNN также имеет ряд ключевых недостатков. Вот некоторые проблемы, связанные с Mask R-CNN:

  • Высокая вычислительная потребность: Он полагается на мощные графические процессоры, что может сделать его дорогим в исполнении и медленным при обработке больших объемов данных.

  • Медленная скорость обработки: многоступенчатый процесс делает его медленнее по сравнению с более быстрыми моделями реального времени вроде YOLO, что может быть не идеальным для задач, чувствительных ко времени.

  • Зависимость от высококачественных данных: Модель лучше всего работает с четкими, хорошо промаркированными изображениями. Размытые или плохо освещенные изображения могут значительно снизить ее точность.
  • Сложная реализация: Многоступенчатая архитектура может быть сложной в настройке и оптимизации, особенно если речь идет о больших наборах данных или ограниченных ресурсах.

От маски R-CNN к Ultralytics YOLO11

Масочная R-CNN отлично подходила для задач сегментации, но многие отрасли стремились внедрить компьютерное зрение, отдавая приоритет скорости и производительности в реальном времени. Это требование привело исследователей к разработке одноступенчатых моделей, которые обнаруживают объекты за один проход, значительно повышая эффективность.

В отличие от многоступенчатого процесса Mask R-CNN, одноступенчатые модели компьютерного зрения, такие как YOLO (You Only Look Once), ориентированы на задачи компьютерного зрения в реальном времени. Вместо того чтобы отдельно заниматься обнаружением и сегментацией, модели YOLO могут анализировать изображение за один раз. Это делает их идеальными для таких приложений, как автономное вождение, здравоохранение, производство и робототехника, где быстрое принятие решений имеет решающее значение.

В частности, YOLO11 делает еще один шаг вперед, будучи одновременно быстрым и точным. Он использует на 22% меньше параметров, чем YOLOv8m , но при этом достигает более высокой средней точности (mAP) на наборе данных COCO, что означает более точное обнаружение объектов. Повышенная скорость обработки данных делает его отличным выбором для приложений реального времени, где важна каждая миллисекунда.

Рис 6. Производительность YOLO11в сравнении с другими моделями.

Основные выводы

Оглядываясь на историю компьютерного зрения, можно сказать, что Mask R-CNN признан главным прорывом в области обнаружения и сегментации объектов. Он обеспечивает очень точные результаты даже в сложных условиях благодаря своему детальному многоступенчатому процессу. 

Однако этот же процесс делает его медленнее по сравнению с моделями реального времени, такими как YOLO. Поскольку потребность в скорости и эффективности растет, во многих приложениях теперь используются одноступенчатые модели вроде Ultralytics YOLO11, которые обеспечивают быстрое и точное обнаружение объектов. Хотя R-CNN Маска важна для понимания эволюции компьютерного зрения, тенденция к использованию решений реального времени подчеркивает растущую потребность в более быстрых и эффективных решениях для компьютерного зрения.

Присоединяйся к нашему растущему сообществу! Изучи наш репозиторий на GitHub, чтобы узнать больше об искусственном интеллекте. Готов начать собственные проекты по компьютерному зрению? Ознакомься с нашими вариантами лицензирования. Открой для себя ИИ в сельском хозяйстве и ИИ зрения в здравоохранении, посетив страницы наших решений! 

Логотип FacebookЛоготип ТвиттераЛоготип LinkedInСимвол копирования-ссылки

Читайте больше в этой категории

Давай вместе построим будущее
искусственного интеллекта!

Начни свое путешествие с будущим машинного обучения