Глоссарий

Паноптическое сегментирование

Узнайте, как паноптическая сегментация объединяет семантическую сегментацию и сегментацию по экземпляру для точного понимания сцены на уровне пикселей в приложениях искусственного интеллекта.

Паноптическая сегментация - это передовая задача компьютерного зрения (КВ), которая позволяет получить полное представление о всей сцене на уровне пикселей. Она объединяет две отдельные задачи: семантическую сегментацию и сегментацию экземпляров. Цель состоит в том, чтобы присвоить каждому пикселю изображения метку класса (например, автомобиль, человек или небо) и, для отдельных объектов, уникальный идентификатор экземпляра. Это позволяет получить более целостный и детальный результат, чем тот, которого может достичь любой из методов сегментации сам по себе, что дает возможность машинам воспринимать визуальную среду с уровнем детализации, близким к человеческому зрению. Этот термин был введен в новаторской статье 2018 года "Паноптическая сегментация", написанной исследователями из FAIR.

Паноптические и другие типы сегментации

Чтобы полностью понять суть паноптической сегментации, полезно сравнить ее с ее составными частями:

  • Семантическая сегментация: Эта техника относит каждый пиксель изображения к определенной категории. Например, все пиксели, принадлежащие автомобилям, обозначаются как "автомобиль", а все пиксели дороги - как "дорога". Однако она не различает разные экземпляры одного и того же класса объектов. Два отдельных автомобиля, стоящих рядом друг с другом, будут относиться к одной карте пикселей "автомобиль".
  • Сегментация экземпляров: Этот метод обнаруживает и сегментирует отдельные объекты, которые часто называют "вещами" (например, автомобили, пешеходы, животные). Каждому обнаруженному объекту присваивается уникальная маска, например car_1, car_2, и pedestrian_1. Однако при сегментации экземпляров обычно игнорируются аморфные фоновые области, или "вещи" (например, небо, дорога, трава, стены), которые не имеют четкой формы или количества.
  • Паноптическое сегментирование: Она сочетает в себе сильные стороны семантической сегментации и сегментации по экземпляру. Он сегментирует каждый пиксель изображения, предоставляя метку класса как для "вещей", так и для "предметов". Важно, что при этом каждому "предмету" присваивается уникальный идентификатор экземпляра, что обеспечивает полную и единую интерпретацию сцены. Например, паноптическая модель не только обозначит небо и дорогу, но и идентифицирует и разграничит car_1, car_2, и pedestrian_1 как отдельные объекты. Такой комплексный подход жизненно важен для передовых Приложения ИИ.

Области применения паноптических сегментов

Детальное понимание сцены, обеспечиваемое паноптической сегментацией, имеет неоценимое значение в различных областях:

  • Автономные транспортные средства: Для безопасной навигации самоуправляемым автомобилям требуется полное понимание окружающей обстановки. Паноптическая сегментация позволяет им распознавать аморфные поверхности, такие как дорога и тротуары ("вещи"), а также различать отдельные автомобили, пешеходов и велосипедистов ("вещи"), даже если они пересекаются. Такое детальное восприятие, продемонстрированное в системах таких компаний, как Waymo, очень важно для планирования безопасного пути и принятия решений. Узнайте, как Ultralytics вносит свой вклад в развитие ИИ в автомобильных решениях.
  • Анализ медицинских изображений: При анализе медицинских снимков, таких как МРТ или КТ, паноптическая сегментация позволяет различать различные типы тканей ("вещи"), а также идентифицировать отдельные структуры, такие как опухоли или отдельные клетки ("вещи"). Это позволяет ставить более точные диагнозы, помогает планировать хирургические операции и следить за развитием болезни. Вы можете прочитать о смежных задачах, таких как использование YOLO11 для обнаружения опухолей.
  • Робототехника: Чтобы роботы могли эффективно взаимодействовать с окружающей средой, они должны понимать как общую планировку (стены, полы), так и конкретные объекты, которыми они могут манипулировать (инструменты, детали). Паноптическая сегментация обеспечивает единый обзор, улучшая навигацию и взаимодействие человека и робота в сложных условиях, например на складах и заводах. Узнайте больше о роли искусственного интеллекта в робототехнике.
  • Дополненная реальность (AR): Приложения AR используют паноптическую сегментацию для плавного совмещения виртуальных объектов с реальным миром. Понимая расположение фоновых поверхностей и объектов переднего плана, AR-системы могут реалистично размещать виртуальный контент, правильно обрабатывая окклюзии. Это привело к значительным достижениям в области AR-технологий.
  • Анализ спутниковых снимков: Этот метод используется для детального картографирования почвенно-растительного покрова, различая такие типы больших территорий, как леса или водоемы ("вещи"), и отдельные структуры, такие как здания или транспортные средства ("предметы"). Правительственные агентства, такие как Геологическая служба США, используют эти данные для мониторинга окружающей среды и городского планирования.

Модели и реализация

Модели паноптической сегментации обычно строятся с использованием фреймворков глубокого обучения, таких как PyTorch, и обучаются на масштабных наборах данных, таких как COCO-Panoptic и Cityscapes. В то время как модели Ultralytics, такие как YOLO11, обеспечивают современную производительность в основных задачах, таких как обнаружение объектов и сегментация экземпляров, которые являются важнейшими составными частями, паноптическая сегментация представляет собой следующий уровень комплексного понимания сцены. По мере проведения исследований в таких институтах, как Google AI и Meta AI, возможности этих комплексных моделей постоянно улучшаются, прокладывая путь к созданию более сложных и осознанных систем ИИ. Вы можете управлять моделями и обучать их для решения соответствующих задач с помощью таких платформ, как Ultralytics HUB.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена