Phân đoạn ngữ nghĩa là một nhiệm vụ cơ bản trong thị giác máy tính (CV) liên quan đến việc gán nhãn lớp cụ thể cho từng pixel trong một hình ảnh. Không giống như các nhiệm vụ thị giác khác có thể xác định đối tượng hoặc phân loại toàn bộ hình ảnh, phân đoạn ngữ nghĩa cung cấp sự hiểu biết sâu sắc ở cấp độ pixel về nội dung cảnh. Điều này có nghĩa là nó không chỉ phát hiện ra rằng có một chiếc ô tô, mà còn phác thảo chính xác những pixel nào thuộc về loại ô tô, phân biệt chúng với các pixel thuộc về đường, bầu trời hoặc người đi bộ. Nó nhằm mục đích phân vùng một hình ảnh thành các vùng có ý nghĩa tương ứng với các loại đối tượng khác nhau, cung cấp sự hiểu biết toàn diện về môi trường trực quan.
Phân đoạn ngữ nghĩa hoạt động như thế nào
Mục tiêu chính của phân đoạn ngữ nghĩa là phân loại từng pixel trong một hình ảnh thành một tập hợp các danh mục được xác định trước. Ví dụ, trong một hình ảnh chứa nhiều ô tô, người đi bộ và cây cối, mô hình phân đoạn ngữ nghĩa sẽ dán nhãn tất cả các pixel tạo nên bất kỳ ô tô nào là 'ô tô', tất cả các pixel của bất kỳ người đi bộ nào là 'người đi bộ' và tất cả các pixel của bất kỳ cây nào là 'cây'. Nó xử lý tất cả các trường hợp của cùng một lớp đối tượng giống hệt nhau.
Phân đoạn ngữ nghĩa hiện đại phụ thuộc rất nhiều vào học sâu , đặc biệt là Mạng nơ-ron tích chập (CNN) . Các mô hình này thường được đào tạo bằng các kỹ thuật học có giám sát , đòi hỏi các tập dữ liệu lớn với chú thích chi tiết ở cấp độ pixel . Quá trình này bao gồm việc đưa một hình ảnh vào mạng, sau đó mạng sẽ đưa ra bản đồ phân đoạn. Về cơ bản, bản đồ này là một hình ảnh trong đó giá trị của mỗi pixel (thường được biểu thị bằng màu sắc) tương ứng với nhãn lớp dự đoán của nó, phân tách trực quan các danh mục khác nhau như 'đường', 'tòa nhà', 'người', v.v. Chất lượng nhãn dữ liệu rất quan trọng để đào tạo các mô hình chính xác.
Sự khác biệt chính so với các nhiệm vụ phân đoạn khác
Điều quan trọng là phải phân biệt phân đoạn ngữ nghĩa với các tác vụ thị giác máy tính liên quan:
- Phân loại hình ảnh : Gán một nhãn duy nhất cho toàn bộ hình ảnh (ví dụ: "hình ảnh này có hình một con mèo"). Nó không xác định vị trí hoặc phác thảo các đối tượng.
- Phát hiện đối tượng : Xác định và định vị đối tượng bằng hộp giới hạn . Nó cho bạn biết vị trí của đối tượng nhưng không cung cấp hình dạng chính xác của chúng ở cấp độ pixel.
- Phân đoạn thể hiện : Tiến xa hơn phân đoạn ngữ nghĩa bằng cách không chỉ phân loại từng pixel mà còn phân biệt giữa các thể hiện khác nhau của cùng một lớp đối tượng. Ví dụ, nó sẽ chỉ định một ID và mặt nạ duy nhất cho từng chiếc xe riêng lẻ trong cảnh. Xem hướng dẫn này so sánh phân đoạn thể hiện và ngữ nghĩa để biết thêm chi tiết.
- Phân đoạn toàn cảnh : Kết hợp phân đoạn ngữ nghĩa và phân đoạn thể hiện, cung cấp cả nhãn danh mục cho mọi pixel và ID thể hiện duy nhất cho các đối tượng có thể đếm được ('thứ') trong khi nhóm các vùng nền không đếm được ('thứ') như bầu trời hoặc đường.
Ứng dụng trong thế giới thực
Việc hiểu bối cảnh chi tiết được cung cấp bởi phân đoạn ngữ nghĩa rất quan trọng đối với nhiều ứng dụng trong thế giới thực:
- Lái xe tự động : Xe tự lái sử dụng phân đoạn ngữ nghĩa để hiểu chính xác môi trường xung quanh. Bằng cách phân loại các pixel thuộc về đường, làn đường, vỉa hè, người đi bộ, các phương tiện khác và chướng ngại vật, hệ thống lái xe tự động có thể đưa ra quyết định điều hướng an toàn hơn. Đây là thành phần chính trong AI cho các giải pháp ô tô .
- Phân tích hình ảnh y tế : Trong chăm sóc sức khỏe, phân đoạn ngữ nghĩa giúp phân tích các bản quét y tế như MRI hoặc CT. Nó có thể tự động phân định các cơ quan, xác định và đo khối u hoặc tổn thương, và làm nổi bật các bất thường với độ chính xác ở cấp độ pixel. Ví dụ, các mô hình YOLO Ultralytics có thể được sử dụng để phát hiện khối u , hỗ trợ các bác sĩ X quang trong việc chẩn đoán và lập kế hoạch điều trị dựa trên các kỹ thuật hình ảnh y tế chi tiết.
- Phân tích hình ảnh vệ tinh : Được sử dụng để phân loại lớp phủ đất, theo dõi nạn phá rừng, quy hoạch đô thị và các ứng dụng nông nghiệp . Nó có thể phân biệt giữa rừng, vùng nước, cánh đồng và khu vực xây dựng từ ảnh vệ tinh, như được thể hiện trong các ví dụ từ Đài quan sát Trái đất của NASA . Khám phá thêm về việc sử dụng thị giác máy tính để phân tích hình ảnh vệ tinh .
- Robot : Cho phép robot nhận thức và tương tác với môi trường hiệu quả hơn bằng cách hiểu bố cục và các đối tượng trong một cảnh. Tìm hiểu về việc tích hợp thị giác máy tính vào robot .
Mô hình và Công cụ
Phân đoạn ngữ nghĩa thường sử dụng các mô hình học sâu, đặc biệt là các kiến trúc bắt nguồn từ CNN.