Thuật ngữ

Phân đoạn toàn cảnh

Khám phá cách phân đoạn toàn cảnh thống nhất phân đoạn ngữ nghĩa và phân đoạn thể hiện để hiểu cảnh chính xác ở cấp độ pixel trong các ứng dụng AI.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Phân đoạn toàn cảnh là một kỹ thuật thị giác máy tính tiên tiến được thiết kế để đạt được sự hiểu biết đầy đủ và chi tiết về một cảnh trực quan ở cấp độ pixel . Nó kết hợp độc đáo các điểm mạnh của hai phương pháp phân đoạn chính khác: phân đoạn ngữ nghĩa và phân đoạn thể hiện. Mục tiêu chính của phân đoạn toàn cảnh là gán cả nhãn lớp (như 'xe hơi', 'người', 'đường', 'bầu trời') và ID thể hiện (để phân biệt giữa các đối tượng khác nhau cùng một lớp) cho từng pixel trong một hình ảnh, cung cấp cách diễn giải phong phú và thống nhất về cảnh.

Hiểu về cách tiếp cận thống nhất

Để nắm bắt được phân đoạn toàn cảnh, sẽ hữu ích khi so sánh nó với các tác vụ liên quan. Phát hiện đối tượng xác định các đối tượng bằng cách sử dụng các hộp giới hạn nhưng thiếu chi tiết ở cấp độ pixel. Phân đoạn ngữ nghĩa phân loại từng pixel thành một danh mục (ví dụ: tất cả ô tô đều được dán nhãn là 'ô tô'), nhưng nó không phân biệt các đối tượng riêng lẻ trong cùng một danh mục. Phân đoạn thể hiện giải quyết vấn đề này bằng cách phát hiện và phân đoạn từng thể hiện đối tượng riêng biệt (ví dụ: ô tô 1, ô tô 2), nhưng thường tập trung vào các đối tượng có thể đếm được ('thứ') và có thể bỏ qua các vùng nền ('thứ' như cỏ, bầu trời hoặc đường).

Phân đoạn toàn cảnh thu hẹp khoảng cách này bằng cách cung cấp sự hiểu biết toàn diện hơn về cảnh . Nó gán một nhãn ngữ nghĩa cho mọi pixel, cho dù pixel đó thuộc về lớp 'thing' (các đối tượng có thể đếm được như xe cộ, người đi bộ, động vật) hay lớp 'stuff' (các vùng vô định hình như đường, tường, bầu trời). Quan trọng là, đối với các pixel thuộc về lớp 'thing', nó cũng gán một ID thể hiện duy nhất, phân tách từng đối tượng khỏi các đối tượng khác cùng loại. Việc gắn nhãn toàn diện này đảm bảo không có pixel nào bị bỏ sót, cung cấp một bản phân tích cú pháp hoàn chỉnh của hình ảnh.

Phân đoạn toàn cảnh hoạt động như thế nào

Các mô hình phân đoạn toàn cảnh thường dựa trên kiến trúc học sâu . Các mô hình này thường sử dụng một trình trích xuất tính năng được chia sẻ (mạng xương sống) theo sau là các đầu hoặc nhánh chuyên biệt dự đoán nhãn ngữ nghĩa cho tất cả các pixel và mặt nạ thể hiện cho các lớp 'thing'. Các đầu ra từ các nhánh này sau đó được kết hợp hoặc hợp nhất một cách thông minh để tạo ra bản đồ phân đoạn toàn cảnh cuối cùng, trong đó mỗi pixel có cả nhãn ngữ nghĩa và, nếu có thể, một ID thể hiện.

Ứng dụng trong thế giới thực

Hiểu biết toàn diện về bối cảnh được cung cấp bởi phân đoạn toàn cảnh có giá trị cao trong nhiều lĩnh vực:

  • Lái xe tự động: Đối với xe tự lái , việc phân biệt giữa các phương tiện và người đi bộ khác nhau (trường hợp) đồng thời hiểu đường, vỉa hè, đèn giao thông và bầu trời (bối cảnh ngữ nghĩa) là rất quan trọng để điều hướng an toàn. Các công ty như Waymo và các công nghệ như Tesla Autopilot phụ thuộc rất nhiều vào nhận thức bối cảnh tinh vi.
  • Chụp ảnh y khoa: Trong phân tích hình ảnh y khoa , phân đoạn toàn cảnh có thể xác định và phân định chính xác từng tế bào hoặc khối u (trường hợp) đồng thời phân loại các mô xung quanh và cấu trúc nền (nhãn ngữ nghĩa), hỗ trợ chẩn đoán và lập kế hoạch điều trị. Các tập dữ liệu như PanNuke tập trung vào loại phân đoạn hạt nhân này.
  • Robot và Thực tế tăng cường: Hiểu được toàn bộ môi trường, bao gồm các đối tượng riêng lẻ và bối cảnh nền, là rất quan trọng đối với robot tương tác với không gian phức tạp và để phủ thông tin kỹ thuật số một cách chính xác trong các ứng dụng thực tế tăng cường . Lĩnh vực robot được hưởng lợi rất nhiều từ việc lập bản đồ môi trường chi tiết.

Phân đoạn toàn cảnh với Ultralytics

Trong khi phân đoạn toàn cảnh là một nhiệm vụ phức tạp, những tiến bộ trong các mô hình như Ultralytics YOLO đang mở rộng ranh giới của hiệu suất phân đoạn. Các mô hình như Ultralytics YOLOv8 cung cấp khả năng mạnh mẽ cho các Nhiệm vụ phân đoạn hình ảnh liên quan, tạo thành nền tảng để xây dựng các hệ thống nhận thức phức tạp hơn. Người dùng có thể tận dụng các nền tảng như Ultralytics HUB để hợp lý hóa quy trình làm việc, bao gồm đào tạo các mô hình trên các tập dữ liệu tùy chỉnh và khám phá các tùy chọn triển khai mô hình khác nhau.

Đọc tất cả