Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Phân vùng thể hiện (Instance Segmentation)

Tìm hiểu cách phân đoạn đối tượng cho phép phát hiện đối tượng ở cấp độ pixel. Khám phá cách sử dụng Ultralytics YOLO26 hỗ trợ tạo mặt nạ tốc độ cao, thời gian thực và nhiều hơn nữa.

Phân đoạn đối tượng là một kỹ thuật tinh vi trong thị giác máy tính (CV) giúp xác định và phân định từng đối tượng riêng biệt cần quan tâm trong một hình ảnh ở cấp độ pixel. Trong khi phát hiện đối tượng tiêu chuẩn định vị các đối tượng bằng cách sử dụng các hộp giới hạn hình chữ nhật, phân đoạn đối tượng phân tích sâu hơn bằng cách tạo ra một mặt nạ chính xác cho mỗi thực thể được phát hiện. Khả năng này cho phép các mô hình trí tuệ nhân tạo (AI) phân biệt giữa các đối tượng riêng lẻ thuộc cùng một lớp—chẳng hạn như tách hai người chồng chéo lên nhau—cung cấp sự hiểu biết phong phú và chi tiết hơn về khung cảnh trực quan so với các phương pháp phân loại đơn giản hơn.

Phân biệt các loại phân đoạn

Để hiểu đầy đủ tiện ích của phân đoạn đối tượng, cần phân biệt nó với các tác vụ xử lý ảnh liên quan khác. Mỗi phương pháp cung cấp mức độ chi tiết khác nhau tùy thuộc vào yêu cầu ứng dụng.

  • Phân đoạn ngữ nghĩa : Phương pháp này phân loại mỗi pixel trong ảnh vào một danh mục (ví dụ: "đường", "bầu trời", "ô tô"). Tuy nhiên, nó không phân biệt giữa các đối tượng riêng biệt thuộc cùng một danh mục. Nếu ba chiếc ô tô đỗ cạnh nhau, phân đoạn ngữ nghĩa sẽ xem chúng như một vùng "ô tô" duy nhất.
  • Phân đoạn đối tượng : Phương pháp này coi mỗi đối tượng là một thực thể riêng biệt. Nó phát hiện các đối tượng riêng lẻ và gán một nhãn duy nhất cho các pixel của mỗi đối tượng. Trong ví dụ về những chiếc xe đang đỗ, phân đoạn đối tượng sẽ tạo ra ba mặt nạ khác nhau, xác định "Xe A", "Xe B" và "Xe C" một cách riêng biệt.
  • Phân đoạn toàn cảnh : Một phương pháp lai kết hợp việc gán nhãn nền của phân đoạn ngữ nghĩa với việc nhận dạng đối tượng có thể đếm được của phân đoạn thể hiện.

Cơ chế phân tích cấp độ pixel

Các mô hình phân đoạn đối tượng hiện đại thường dựa vào các kiến ​​trúc học sâu (DL) tiên tiến, đặc biệt là Mạng nơ-ron tích chập (CNN) . Các mạng này trích xuất các đặc trưng từ hình ảnh để dự đoán cả lớp của đối tượng và đường viền không gian của nó. Trong lịch sử, các kiến ​​trúc hai giai đoạn như Mask R-CNN là tiêu chuẩn, đầu tiên đề xuất các vùng quan tâm và sau đó tinh chỉnh chúng thành mặt nạ.

Tuy nhiên, những tiến bộ gần đây đã dẫn đến sự ra đời của các bộ dò một giai đoạn như YOLO26 , thực hiện cả việc dò tìm và phân đoạn đồng thời. Cách tiếp cận "từ đầu đến cuối" này cải thiện đáng kể tốc độ suy luận thời gian thực , giúp áp dụng phân đoạn độ chính xác cao cho các luồng video trực tiếp trên phần cứng dành cho người tiêu dùng.

Các Ứng dụng Thực tế

Các ranh giới chính xác do phân đoạn đối tượng cung cấp rất quan trọng đối với các ngành công nghiệp cần hiểu rõ hình dạng và vị trí chính xác của đối tượng để đưa ra quyết định.

  • Trí tuệ nhân tạo trong chăm sóc sức khỏe : Trong chẩn đoán y tế, việc xác định chính xác kích thước và hình dạng của khối u hoặc tổn thương là vô cùng quan trọng. Phân đoạn đối tượng cho phép các mô hình phác thảo các bất thường trong ảnh chụp MRI với độ chính xác cao, hỗ trợ các bác sĩ X quang trong việc lập kế hoạch điều trị và theo dõi sự tiến triển của bệnh.
  • Xe tự hành : Xe tự lái dựa vào phân đoạn để điều hướng trong môi trường phức tạp. Sử dụng các bộ dữ liệu như Cityscapes , xe có thể xác định bề mặt có thể lái được, nhận biết vạch kẻ làn đường và phân tách người đi bộ riêng lẻ tại các giao lộ đông đúc để đảm bảo an toàn.
  • Trí tuệ nhân tạo trong nông nghiệp : Nông nghiệp chính xác sử dụng phân đoạn để theo dõi sức khỏe cây trồng. Robot được trang bị hệ thống thị giác có thể nhận dạng từng quả riêng lẻ để thu hoạch tự động hoặc detect Xác định các loại cỏ dại cụ thể để phun thuốc diệt cỏ có mục tiêu, giảm lượng hóa chất sử dụng và tối ưu hóa năng suất.

Triển khai phân đoạn với Python

Các nhà phát triển có thể dễ dàng triển khai phân đoạn phiên bản bằng cách sử dụng ultralytics thư viện. Ví dụ sau đây minh họa cách tải một mô hình đã được huấn luyện trước. YOLO26 Mô hình hóa và tạo mặt nạ phân đoạn cho hình ảnh.

from ultralytics import YOLO

# Load a pre-trained YOLO26 instance segmentation model
# The 'n' suffix denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")

# Run inference on an image
# This predicts classes, bounding boxes, and masks
results = model("https://ultralytics.com/images/bus.jpg")

# Visualize the results
# Displays the image with overlaid segmentation masks
results[0].show()

Những thách thức và mô hình đào tạo

Mặc dù mạnh mẽ, phân đoạn đối tượng đòi hỏi nhiều tài nguyên tính toán hơn so với phát hiện hộp giới hạn đơn giản. Việc tạo ra mặt nạ hoàn hảo đến từng pixel yêu cầu tài nguyên GPU đáng kể và chú thích dữ liệu chính xác. Chú thích dữ liệu cho các tác vụ này bao gồm vẽ các đa giác nhỏ xung quanh mỗi đối tượng, điều này có thể tốn nhiều thời gian.

Để tối ưu hóa quy trình này, các nhóm thường sử dụng các công cụ như Nền tảng Ultralytics , cung cấp các tính năng quản lý tập dữ liệu, tự động chú thích và đào tạo dựa trên đám mây. Điều này cho phép các nhà phát triển tinh chỉnh mô hình trên dữ liệu tùy chỉnh—chẳng hạn như các bộ phận công nghiệp cụ thể hoặc mẫu sinh học—và triển khai chúng một cách hiệu quả đến các thiết bị AI biên bằng cách sử dụng các định dạng được tối ưu hóa như ONNX hoặc TensorRT .

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay