Присоединяйся к нам, поскольку мы подробно рассмотрим, что такое сегментация экземпляров, как она работает, как используется в различных приложениях компьютерного зрения и какое влияние она может оказать.
Приложения компьютерного зрения становятся все более распространенными в нашей повседневной жизни, начиная от дорожных камер, следящих за состоянием дорог, и заканчивая системами самостоятельной кассы в магазинах. Позволяя машинам понимать визуальные данные так, как это делает человек, Vision AI оказывает влияние на целый ряд отраслей.
Многие из этих приложений полагаются на обнаружение объектов - задачу компьютерного зрения, которая ставит ограничительные рамки вокруг ключевых объектов на изображениях. Хотя этот подход часто работает хорошо, некоторые решения для анализа изображений требуют еще большей точности.
Например, в медицинской визуализации требуется не просто обнаружить опухоль - крайне важно очертить ее точную форму. Точно так же в робототехнике машинам нужно распознавать точные контуры объекта, чтобы правильно его схватить. Для решения этих задач сегментация экземпляров предлагает более точное решение.
Сегментация объектов - это задача компьютерного зрения, разработанная для поддержки тех случаев, когда обнаружения объектов недостаточно - она обеспечивает точность на уровне пикселей. Модели компьютерного зрения, такие как Ultralytics YOLO11 можно использовать для того, чтобы легко применять сегментацию объектов к изображениям и видео.
В этом руководстве мы расскажем, как работает сегментация экземпляров, каковы ее области применения и как Ultralytics YOLO11 можно настраивать для решения конкретных задач сегментации.
Допустим, есть групповая фотография людей, стоящих близко друг к другу. Обнаружение объектов поможет нарисовать рамки вокруг каждого человека, но это не скажет тебе об их точной форме.
Сегментация экземпляров, с другой стороны, похожа на тщательное обведение каждого человека, чтобы ты мог увидеть все его очертания, даже если они перекрывают друг друга. Вместо того чтобы просто отмечать, где что находится, с помощью рамки, она определяет точную форму каждого объекта на уровне пикселей, что облегчает понимание сложных изображений.
В результате получается детальная маска, которая заполняет форму объекта, точно указывая, какие пиксели ему принадлежат. Такой уровень точности полезен во многих реальных приложениях, где важно понимать точную форму и границы объектов.
Изучая сегментацию экземпляров, ты можешь столкнуться с понятием семантической сегментации.
Обе техники помогают компьютерам понимать изображения на уровне пикселей, но служат они разным целям. Семантическая сегментация маркирует каждый пиксель на основе его категории, группируя все объекты одного типа вместе. Например, на изображении с несколькими автомобилями семантическая сегментация пометит их все как "автомобиль", не делая различий между отдельными машинами.
Сегментация экземпляров, с другой стороны, делает шаг вперед, идентифицируя каждый объект отдельно. Она присваивает уникальные метки отдельным экземплярам и создает точные маски вокруг их форм. Так что на том же изображении сегментация экземпляров не просто обозначит все как "автомобиль", а распознает и обрисует каждую машину по отдельности.
Основное различие между ними заключается в том, что семантическая сегментация группирует объекты по категориям, а сегментация по экземплярам выделяет каждый объект как уникальную сущность с четкими границами. Выбор задачи зависит от конкретного применения - достаточно ли знать, что находится на изображении, или важно различать отдельные объекты.
На сегодняшний день сообществу Vision AI доступны различные модели сегментации экземпляров. Некоторые из них быстрее, некоторые точнее, а некоторые проще в использовании.
Эти варианты, хотя и полезные, могут привести к вопросу, какой из них правильно использовать для конкретной задачи? Среди этих вариантов довольно популярны модели Ultralytics YOLO , потому что они сосредоточены на скорости и точности.
Кроме того, за прошедшие годы эти модели значительно эволюционировали. Например, Ultralytics YOLOv5 упростила развертывание с помощью фреймворков вроде PyTorch, сделав продвинутый Vision AI доступным для более широкой аудитории и не требующим глубоких технических знаний.
Развивай этот успех, Ultralytics YOLOv8 представила расширенную поддержку задач компьютерного зрения, таких как сегментация объектов, оценка позы и классификация изображений.
Теперь YOLO11 поднимает производительность на новый уровень. Он достигает более высокой средней точности (mAP) на наборе данных COCO с 22% меньшим количеством параметров, чем YOLOv8m, что означает, что он может распознавать объекты более точно, используя при этом меньше ресурсов.
Проще говоря, YOLO11 обеспечивает ультрасовременную точность без ущерба для эффективности, что делает его революционным в полевых условиях.
Далее рассмотрим, как обычно работает сегментация экземпляров. Старые модели компьютерного зрения используют двухэтапный подход.
Сначала они обнаруживают объекты, рисуя вокруг них ограничительные рамки. Затем они генерируют маску на уровне пикселей, чтобы очертить точную форму каждого объекта. Известным примером является Mask R-CNN, которая основывается на моделях обнаружения объектов, добавляя шаг предсказания маски. Хотя этот метод эффективен, он может быть медленным, так как обрабатывает изображение в несколько этапов, что делает приложения реального времени более сложными.
Между тем модели вроде YOLO11 обрабатывают изображения за один проход, одновременно предсказывая ограничительные рамки объектов и маски сегментации экземпляров. Такой оптимизированный подход позволяет работать гораздо быстрее, сохраняя при этом высокую точность. В результате он особенно полезен для приложений реального времени, таких как автономное вождение, анализ видео и робототехника, где важны и скорость, и точность.
Из коробки YOLO11 поставляется как предварительно обученная модель. Она была обучена на наборе данных COCO-Seg, который охватывает повседневные объекты для сегментации экземпляров. Однако пакет Ultralytics Python поддерживает пользовательское обучение, которое необходимо для специализированных приложений, где нужно сегментировать уникальные объекты.
Почему пользовательское обучение или тонкая настройка модели важны? Индивидуальное обучение позволяет использовать трансферное обучение, опираясь на знания, уже заложенные в предварительно обученные модели. Вместо того чтобы начинать с нуля, оно адаптирует существующую модель к новым задачам, используя меньшие наборы данных и меньшие вычислительные ресурсы, при этом сохраняя высокую точность.
Вот более подробный взгляд на шаги, связанные с тонкой настройкой YOLO11 для сегментации:
Сегментация объектов может использоваться для решения реальных задач, помогая машинам видеть и понимать объекты более точно. От улучшения автоматизации до защиты окружающей среды - она играет ключевую роль во многих областях. Давай пройдемся по некоторым примерам, где она оказывает влияние.
Сегментация инстанций может стать важнейшей частью обеспечения безопасности и эффективности на строительных площадках. Например, с ее помощью можно следить за тяжелой техникой.
YOLO11 можно настроить так, чтобы он точно сегментировал и идентифицировал различные типы оборудования, например краны, экскаваторы и бульдозеры, и отслеживал их положение в режиме реального времени. Это позволяет руководителям стройплощадок следить за тем, чтобы техника работала строго в пределах обозначенных зон и не вторгалась в зоны, где находятся рабочие или существуют опасности.
Кроме того, интеграция таких решений с системами оповещения в реальном времени позволяет оперативно принимать корректирующие меры. Кроме того, собранные сведения могут помочь оптимизировать планировку участка и рабочий процесс, что еще больше снизит риски и повысит производительность.
Мониторинг поведения животных помогает исследователям, фермерам и специалистам по охране природы лучше заботиться о животных в различных условиях. Сегментация экземпляров играет полезную роль в этих системах, идентифицируя и сегментируя отдельных животных на фермах, в зоопарках и естественной среде обитания. В отличие от традиционного обнаружения объектов, в котором используются ограничивающие рамки, сегментация экземпляров обеспечивает очерчивание каждого животного на уровне пикселей, что особенно полезно, когда животные находятся в непосредственной близости друг от друга.
Детальная сегментация способствует более точному отслеживанию движений и поведения. Перекрывающиеся или тесно сгруппированные животные могут быть отчетливо распознаны, что позволяет более точно проанализировать взаимодействие, оценить состояние здоровья и характер активности. В целом более глубокое понимание поведения животных улучшает методы ухода за ними и управления ими.
Точное отслеживание игроков и событий - огромная часть спортивного анализа. Традиционные методы отслеживания полагаются на ручное нанесение меток, что может не отражать детальные взаимодействия. Компьютерное зрение можно использовать для сегментирования таких деталей, как каждый игрок, мяч и ключевое событие, на уровне пикселей, чтобы получить подробную информацию.
Например, сегментация экземпляров может помочь обнаружить такие события, как фолы или инциденты за пределами мяча, четко разделяя каждого игрока и объект. Благодаря такому детальному мониторингу, который обеспечивают модели вроде YOLO11 , аналитики получают более четкую информацию для изучения моделей движения, пространственного расположения и взаимодействий с высокой точностью. Ключевое преимущество этих данных заключается в том, что они помогают командам совершенствовать свои стратегии и повышать общую производительность.
Вот несколько ключевых преимуществ, которые может принести сегментация экземпляров в различных отраслях:
Хотя эти преимущества подчеркивают, как сегментация экземпляров влияет на различные сценарии использования, важно также рассмотреть проблемы, связанные с ее внедрением.
Вот некоторые из ключевых ограничений сегментации экземпляров:
Сегментация объектов позволяет с точностью различать отдельные объекты, даже если они перекрывают друг друга. Захватывая границы объектов на уровне пикселей, она обеспечивает более глубокое понимание визуальных данных по сравнению с традиционными задачами компьютерного зрения, такими как обнаружение объектов.
Последние достижения в области компьютерного зрения сделали сегментацию экземпляров более быстрой и простой в использовании. В частности, такие модели компьютерного зрения, как Ultralytics YOLO11 , упрощают этот процесс, позволяя проводить сегментацию в реальном времени с минимальными настройками, что делает его более доступным для различных отраслей и приложений.
Любопытно узнать об искусственном интеллекте? Заходи в наш репозиторий на GitHub и подключайся к нашему сообществу, чтобы продолжить исследования. Узнай о таких инновациях, как ИИ в самодвижущихся автомобилях и ИИ зрения в сельском хозяйстве, на страницах наших решений. Ознакомься с нашими вариантами лицензирования и приступай к работе над проектом по компьютерному зрению!
Начни свое путешествие с будущим машинного обучения