Khám phá cách phân đoạn toàn cảnh thống nhất phân đoạn ngữ nghĩa và phân đoạn thể hiện để hiểu cảnh chính xác ở cấp độ pixel trong các ứng dụng AI.
Phân đoạn toàn cảnh là một kỹ thuật thị giác máy tính tiên tiến được thiết kế để đạt được sự hiểu biết đầy đủ và chi tiết về một cảnh trực quan ở cấp độ pixel . Nó kết hợp độc đáo các điểm mạnh của hai phương pháp phân đoạn chính khác: phân đoạn ngữ nghĩa và phân đoạn thể hiện. Mục tiêu chính của phân đoạn toàn cảnh là gán cả nhãn lớp (như 'xe hơi', 'người', 'đường', 'bầu trời') và ID thể hiện (để phân biệt giữa các đối tượng khác nhau cùng một lớp) cho từng pixel trong một hình ảnh, cung cấp cách diễn giải phong phú và thống nhất về cảnh.
Để nắm bắt được phân đoạn toàn cảnh, sẽ hữu ích khi so sánh nó với các tác vụ liên quan. Phát hiện đối tượng xác định các đối tượng bằng cách sử dụng các hộp giới hạn nhưng thiếu chi tiết ở cấp độ pixel. Phân đoạn ngữ nghĩa phân loại từng pixel thành một danh mục (ví dụ: tất cả ô tô đều được dán nhãn là 'ô tô'), nhưng nó không phân biệt các đối tượng riêng lẻ trong cùng một danh mục. Phân đoạn thể hiện giải quyết vấn đề này bằng cách phát hiện và phân đoạn từng thể hiện đối tượng riêng biệt (ví dụ: ô tô 1, ô tô 2), nhưng thường tập trung vào các đối tượng có thể đếm được ('thứ') và có thể bỏ qua các vùng nền ('thứ' như cỏ, bầu trời hoặc đường).
Phân đoạn toàn cảnh thu hẹp khoảng cách này bằng cách cung cấp sự hiểu biết toàn diện hơn về cảnh . Nó gán một nhãn ngữ nghĩa cho mọi pixel, cho dù pixel đó thuộc về lớp 'thing' (các đối tượng có thể đếm được như xe cộ, người đi bộ, động vật) hay lớp 'stuff' (các vùng vô định hình như đường, tường, bầu trời). Quan trọng là, đối với các pixel thuộc về lớp 'thing', nó cũng gán một ID thể hiện duy nhất, phân tách từng đối tượng khỏi các đối tượng khác cùng loại. Việc gắn nhãn toàn diện này đảm bảo không có pixel nào bị bỏ sót, cung cấp một bản phân tích cú pháp hoàn chỉnh của hình ảnh.
Các mô hình phân đoạn toàn cảnh thường dựa trên kiến trúc học sâu . Các mô hình này thường sử dụng một trình trích xuất tính năng được chia sẻ (mạng xương sống) theo sau là các đầu hoặc nhánh chuyên biệt dự đoán nhãn ngữ nghĩa cho tất cả các pixel và mặt nạ thể hiện cho các lớp 'thing'. Các đầu ra từ các nhánh này sau đó được kết hợp hoặc hợp nhất một cách thông minh để tạo ra bản đồ phân đoạn toàn cảnh cuối cùng, trong đó mỗi pixel có cả nhãn ngữ nghĩa và, nếu có thể, một ID thể hiện.
Hiểu biết toàn diện về bối cảnh được cung cấp bởi phân đoạn toàn cảnh có giá trị cao trong nhiều lĩnh vực:
Trong khi phân đoạn toàn cảnh là một nhiệm vụ phức tạp, những tiến bộ trong các mô hình như Ultralytics YOLO đang mở rộng ranh giới của hiệu suất phân đoạn. Các mô hình như Ultralytics YOLOv8 cung cấp khả năng mạnh mẽ cho các Nhiệm vụ phân đoạn hình ảnh liên quan, tạo thành nền tảng để xây dựng các hệ thống nhận thức phức tạp hơn. Người dùng có thể tận dụng các nền tảng như Ultralytics HUB để hợp lý hóa quy trình làm việc, bao gồm đào tạo các mô hình trên các tập dữ liệu tùy chỉnh và khám phá các tùy chọn triển khai mô hình khác nhau.