Изучите семантическую сегментацию для понимания изображений на уровне пикселей. Узнайте, как обучить и развернуть точные модели сегментации с помощью Ultralytics уже сегодня.
Семантическая сегментация — это задача компьютерного зрения, которая заключается в разделении изображения на отдельные области путем присвоения каждому отдельному пикселю определенной метки класса. В отличие от более простых задач, таких как классификация изображений, при которой всему изображению присваивается одна метка, или обнаружение объектов, при котором вокруг объектов рисуются ограничительные рамки, семантическая сегментация обеспечивает понимание сцены на уровне пикселей. Такой детальный анализ имеет решающее значение для приложений, в которых точная форма и границы объекта так же важны, как и его идентичность. Он позволяет машинам «видеть» мир так же, как люди, различая точные пиксели, из которых состоит дорога, пешеход или опухоль на медицинском скане.
По сути, семантическая сегментация рассматривает изображение как сетку пикселей, которые необходимо классифицировать. Модели глубокого обучения, в частности сверточные нейронные сети (CNN), являются стандартной архитектурой для этой задачи. Типичная архитектура, такая как широко используемая U-Net, использует структуру кодировщик-декодер. Кодировщик сжимает входное изображение для извлечения высокоуровневых характеристик (таких как текстуры и формы), а декодер повышает разрешение этих характеристик до исходного разрешения изображения для генерации точной маски сегментации.
Для этого модели обучаются на больших аннотированных наборах данных, в которых аннотаторы-люди тщательно раскрасили каждый пиксель в соответствии с его классом. Такие инструменты, как Ultralytics , облегчают этот процесс, предлагая функции автоматической аннотации, которые ускоряют создание высококачественных данных о реальных условиях. После обучения модель выдает маску, в которой каждое значение пикселя соответствует идентификатору класса, эффективно «окрашивая» изображение смыслом.
Часто семантическую сегментацию путают с другими задачами на уровне пикселей. Понимание различий является ключом к выбору правильного подхода для проекта:
Способность анализировать визуальные данные с пиксельной точностью стимулирует инновации во многих отраслях с высокими ставками:
Современные модели сегментации должны обеспечивать баланс между точностью и скоростью, особенно для
выводы в режиме реального времени на периферийных устройствах.
Ultralytics YOLO26 модель семьи включает специализированные
модели сегментации (обозначенные -seg суффикс), которые изначально являются сквозными и обеспечивают превосходную
производительность по сравнению со старыми архитектурами, такими как YOLO11.
Следующий пример демонстрирует, как выполнить сегментацию изображения с помощью ultralytics Python
.
Это позволяет создавать бинарные маски, которые определяют границы объектов.
from ultralytics import YOLO
# Load a pre-trained YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize the results
# This will display the image with the segmentation masks overlaid
results[0].show()
Несмотря на значительный прогресс, семантическая сегментация остается вычислительно интенсивной задачей. Создание классификации для каждого отдельного пикселя требует значительных GPU и памяти. Исследователи активно работают над оптимизацией этих моделей с целью повышения их эффективности, изучая такие методы, как квантование моделей, чтобы запускать тяжелые сети на мобильных телефонах и встроенных устройствах.
Кроме того, необходимость в огромных наборах помеченных данных является узким местом. Для решения этой проблемы отрасль движется в направлении генерации синтетических данных и самостоятельного обучения, что позволяет моделям обучаться на основе необработанных изображений без необходимости миллионов ручных меток пикселей. По мере совершенствования этих технологий можно ожидать, что сегментация станет еще более распространенной в интеллектуальных камерах, робототехнике и приложениях дополненной реальности.