Изучите сегментацию изображений в компьютерном зрении. Узнайте, как Ultralytics обеспечивает точные маски на уровне пикселей для сегментации экземпляров, семантической и паноптической сегментации.
Сегментация изображений — это сложная техника в компьютерном зрении (CV), которая включает в себя разбиение цифрового изображения на несколько подгрупп пикселей, часто называемых сегментами или областями изображения. В отличие от стандартной классификации изображений, при которой всему изображению присваивается один ярлык, сегментация анализирует визуальные данные на гораздо более детальном уровне, присваивая конкретный ярлык класса каждому отдельному пикселю. В результате этого процесса создается точная карта на уровне пикселей, позволяющая моделям искусственного интеллекта (ИИ) понимать не только, какие объекты присутствуют, но и где именно они находятся и каковы их конкретные границы .
Для достижения такого высококачественного понимания модели сегментации обычно используют архитектуры глубокого обучения (DL), в частности сверточные нейронные сети (CNN). Эти сети действуют как мощные экстракторы признаков, идентифицируя такие паттерны, как края, текстуры и сложные формы. Традиционные архитектуры сегментации, такие как классическая U-Net, часто используют структуру кодировщик-декодер. Кодировщик сжимает входное изображение для захвата семантического контекста, а декодер восстанавливает пространственные детали для вывода окончательной маски сегментации.
Современные достижения привели к появлению архитектур реального времени, таких как YOLO26, выпущенная в январе 2026 года. Эти модели интегрируют возможности сегментации непосредственно в сквозной конвейер, что позволяет осуществлять высокоскоростную обработку на различном оборудовании, от облачных графических процессоров до периферийных устройств.
В зависимости от конкретной цели проекта разработчики обычно выбирают один из трех основных методов сегментации:
Очень важно отличать сегментацию от обнаружения объектов. В то время как алгоритмы обнаружения локализуют объекты с помощью прямоугольной ограничивающей рамки, они неизбежно включают в эту рамку пиксели фона. Сегментация обеспечивает более точное и аккуратное представление, отслеживая точный контур или многоугольник объекта. Это различие имеет жизненно важное значение для таких приложений, как роботизированный захват, где робот-манипулятор должен знать точную геометрию объекта, чтобы манипулировать им без столкновений.
Точность, обеспечиваемая сегментацией изображений, стимулирует инновации в различных отраслях:
Разработчики могут эффективно реализовать сегментацию экземпляров с помощью ultralytics Python . В
следующем примере используется современный Модель YOLO26,
который оптимизирован как для скорости, так и для точности.
from ultralytics import YOLO
# Load a pre-trained YOLO26 segmentation model
# 'n' denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to generate masks
# The model identifies objects and outlines their shape
results = model("https://ultralytics.com/images/bus.jpg")
# Display the image with segmentation overlays
results[0].show()
Для достижения высокой производительности при выполнении пользовательских задач командам часто необходимо подбирать высококачественные учебные данные. Ultralytics упрощает этот процесс, предоставляя инструменты для аннотирования изображений с помощью многоугольных масок, управления наборами данных и обучения моделей в облаке, оптимизируя весь жизненный цикл операций машинного обучения (MLOps). Библиотеки, такие как OpenCV также часто используются вместе с этими моделями для предварительной обработки изображений и постобработки полученных масок.