Tìm hiểu cách phân đoạn đối tượng cho phép phát hiện đối tượng ở cấp độ pixel. Khám phá cách sử dụng Ultralytics YOLO26 hỗ trợ tạo mặt nạ tốc độ cao, thời gian thực và nhiều hơn nữa.
Phân đoạn đối tượng là một kỹ thuật tinh vi trong thị giác máy tính (CV) giúp xác định và phân định từng đối tượng riêng biệt cần quan tâm trong một hình ảnh ở cấp độ pixel. Trong khi phát hiện đối tượng tiêu chuẩn định vị các đối tượng bằng cách sử dụng các hộp giới hạn hình chữ nhật, phân đoạn đối tượng phân tích sâu hơn bằng cách tạo ra một mặt nạ chính xác cho mỗi thực thể được phát hiện. Khả năng này cho phép các mô hình trí tuệ nhân tạo (AI) phân biệt giữa các đối tượng riêng lẻ thuộc cùng một lớp—chẳng hạn như tách hai người chồng chéo lên nhau—cung cấp sự hiểu biết phong phú và chi tiết hơn về khung cảnh trực quan so với các phương pháp phân loại đơn giản hơn.
Để hiểu đầy đủ tiện ích của phân đoạn đối tượng, cần phân biệt nó với các tác vụ xử lý ảnh liên quan khác. Mỗi phương pháp cung cấp mức độ chi tiết khác nhau tùy thuộc vào yêu cầu ứng dụng.
Các mô hình phân đoạn đối tượng hiện đại thường dựa vào các kiến trúc học sâu (DL) tiên tiến, đặc biệt là Mạng nơ-ron tích chập (CNN) . Các mạng này trích xuất các đặc trưng từ hình ảnh để dự đoán cả lớp của đối tượng và đường viền không gian của nó. Trong lịch sử, các kiến trúc hai giai đoạn như Mask R-CNN là tiêu chuẩn, đầu tiên đề xuất các vùng quan tâm và sau đó tinh chỉnh chúng thành mặt nạ.
Tuy nhiên, những tiến bộ gần đây đã dẫn đến sự ra đời của các bộ dò một giai đoạn như YOLO26 , thực hiện cả việc dò tìm và phân đoạn đồng thời. Cách tiếp cận "từ đầu đến cuối" này cải thiện đáng kể tốc độ suy luận thời gian thực , giúp áp dụng phân đoạn độ chính xác cao cho các luồng video trực tiếp trên phần cứng dành cho người tiêu dùng.
Các ranh giới chính xác do phân đoạn đối tượng cung cấp rất quan trọng đối với các ngành công nghiệp cần hiểu rõ hình dạng và vị trí chính xác của đối tượng để đưa ra quyết định.
Các nhà phát triển có thể dễ dàng triển khai phân đoạn phiên bản bằng cách sử dụng ultralytics thư viện. Ví dụ sau đây minh họa cách tải một mô hình đã được huấn luyện trước. YOLO26 Mô hình hóa và tạo mặt nạ phân đoạn cho hình ảnh.
from ultralytics import YOLO
# Load a pre-trained YOLO26 instance segmentation model
# The 'n' suffix denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")
# Run inference on an image
# This predicts classes, bounding boxes, and masks
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize the results
# Displays the image with overlaid segmentation masks
results[0].show()
Mặc dù mạnh mẽ, phân đoạn đối tượng đòi hỏi nhiều tài nguyên tính toán hơn so với phát hiện hộp giới hạn đơn giản. Việc tạo ra mặt nạ hoàn hảo đến từng pixel yêu cầu tài nguyên GPU đáng kể và chú thích dữ liệu chính xác. Chú thích dữ liệu cho các tác vụ này bao gồm vẽ các đa giác nhỏ xung quanh mỗi đối tượng, điều này có thể tốn nhiều thời gian.
Để tối ưu hóa quy trình này, các nhóm thường sử dụng các công cụ như Nền tảng Ultralytics , cung cấp các tính năng quản lý tập dữ liệu, tự động chú thích và đào tạo dựa trên đám mây. Điều này cho phép các nhà phát triển tinh chỉnh mô hình trên dữ liệu tùy chỉnh—chẳng hạn như các bộ phận công nghiệp cụ thể hoặc mẫu sinh học—và triển khai chúng một cách hiệu quả đến các thiết bị AI biên bằng cách sử dụng các định dạng được tối ưu hóa như ONNX hoặc TensorRT .