Thuật ngữ

Phân đoạn ngữ nghĩa

Khám phá sức mạnh của phân đoạn ngữ nghĩa—phân loại từng pixel trong hình ảnh để hiểu chính xác cảnh. Khám phá các ứng dụng và công cụ ngay!

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Phân đoạn ngữ nghĩa là một nhiệm vụ cơ bản trong thị giác máy tính (CV) liên quan đến việc gán nhãn lớp cụ thể cho từng pixel trong một hình ảnh. Không giống như các nhiệm vụ thị giác khác có thể xác định đối tượng hoặc phân loại toàn bộ hình ảnh, phân đoạn ngữ nghĩa cung cấp sự hiểu biết sâu sắc ở cấp độ pixel về nội dung cảnh. Điều này có nghĩa là nó không chỉ phát hiện ra rằng có một chiếc ô tô, mà còn phác thảo chính xác những pixel nào thuộc về loại ô tô, phân biệt chúng với các pixel thuộc về đường, bầu trời hoặc người đi bộ. Nó nhằm mục đích phân vùng một hình ảnh thành các vùng có ý nghĩa tương ứng với các loại đối tượng khác nhau, cung cấp sự hiểu biết toàn diện về môi trường trực quan.

Phân đoạn ngữ nghĩa hoạt động như thế nào

Mục tiêu chính của phân đoạn ngữ nghĩa là phân loại từng pixel trong một hình ảnh thành một tập hợp các danh mục được xác định trước. Ví dụ, trong một hình ảnh chứa nhiều ô tô, người đi bộ và cây cối, mô hình phân đoạn ngữ nghĩa sẽ dán nhãn tất cả các pixel tạo nên bất kỳ ô tô nào là 'ô tô', tất cả các pixel của bất kỳ người đi bộ nào là 'người đi bộ' và tất cả các pixel của bất kỳ cây nào là 'cây'. Nó xử lý tất cả các trường hợp của cùng một lớp đối tượng giống hệt nhau.

Phân đoạn ngữ nghĩa hiện đại phụ thuộc rất nhiều vào học sâu , đặc biệt là Mạng nơ-ron tích chập (CNN) . Các mô hình này thường được đào tạo bằng các kỹ thuật học có giám sát , đòi hỏi các tập dữ liệu lớn với chú thích chi tiết ở cấp độ pixel . Quá trình này bao gồm việc đưa một hình ảnh vào mạng, sau đó mạng sẽ đưa ra bản đồ phân đoạn. Về cơ bản, bản đồ này là một hình ảnh trong đó giá trị của mỗi pixel (thường được biểu thị bằng màu sắc) tương ứng với nhãn lớp dự đoán của nó, phân tách trực quan các danh mục khác nhau như 'đường', 'tòa nhà', 'người', v.v. Chất lượng nhãn dữ liệu rất quan trọng để đào tạo các mô hình chính xác.

Sự khác biệt chính so với các nhiệm vụ phân đoạn khác

Điều quan trọng là phải phân biệt phân đoạn ngữ nghĩa với các tác vụ thị giác máy tính liên quan:

  • Phân loại hình ảnh : Gán một nhãn duy nhất cho toàn bộ hình ảnh (ví dụ: "hình ảnh này có hình một con mèo"). Nó không xác định vị trí hoặc phác thảo các đối tượng.
  • Phát hiện đối tượng : Xác định và định vị đối tượng bằng hộp giới hạn . Nó cho bạn biết vị trí của đối tượng nhưng không cung cấp hình dạng chính xác của chúng ở cấp độ pixel.
  • Phân đoạn thể hiện : Tiến xa hơn phân đoạn ngữ nghĩa bằng cách không chỉ phân loại từng pixel mà còn phân biệt giữa các thể hiện khác nhau của cùng một lớp đối tượng. Ví dụ, nó sẽ chỉ định một ID và mặt nạ duy nhất cho từng chiếc xe riêng lẻ trong cảnh. Xem hướng dẫn này so sánh phân đoạn thể hiện và ngữ nghĩa để biết thêm chi tiết.
  • Phân đoạn toàn cảnh : Kết hợp phân đoạn ngữ nghĩa và phân đoạn thể hiện, cung cấp cả nhãn danh mục cho mọi pixel và ID thể hiện duy nhất cho các đối tượng có thể đếm được ('thứ') trong khi nhóm các vùng nền không đếm được ('thứ') như bầu trời hoặc đường.

Ứng dụng trong thế giới thực

Việc hiểu bối cảnh chi tiết được cung cấp bởi phân đoạn ngữ nghĩa rất quan trọng đối với nhiều ứng dụng trong thế giới thực:

Mô hình và Công cụ

Phân đoạn ngữ nghĩa thường sử dụng các mô hình học sâu, đặc biệt là các kiến trúc bắt nguồn từ CNN.

Đọc tất cả