Khám phá sức mạnh của phân đoạn ngữ nghĩa—phân loại từng pixel trong hình ảnh để hiểu chính xác cảnh. Khám phá các ứng dụng và công cụ ngay!
Phân đoạn ngữ nghĩa là một nhiệm vụ cơ bản trong thị giác máy tính liên quan đến việc gán nhãn lớp cụ thể cho từng pixel trong một hình ảnh. Không giống như các nhiệm vụ thị giác khác có thể xác định đối tượng hoặc phân loại toàn bộ hình ảnh, phân đoạn ngữ nghĩa cung cấp sự hiểu biết sâu sắc ở cấp độ pixel về nội dung cảnh. Điều này có nghĩa là nó không chỉ phát hiện ra có một chiếc ô tô mà còn phác thảo chính xác những pixel nào thuộc về loại ô tô, phân biệt chúng với các pixel thuộc về đường, bầu trời hoặc người đi bộ.
Mục tiêu chính của phân đoạn ngữ nghĩa là phân chia một hình ảnh thành các vùng có ý nghĩa tương ứng với các loại đối tượng khác nhau. Ví dụ, trong một hình ảnh chứa nhiều ô tô, người đi bộ và cây cối, một mô hình phân đoạn ngữ nghĩa sẽ dán nhãn tất cả các pixel tạo nên bất kỳ ô tô nào là 'ô tô', tất cả các pixel của bất kỳ người đi bộ nào là 'người đi bộ' và tất cả các pixel của bất kỳ cây nào là 'cây'. Nó xử lý tất cả các trường hợp của cùng một lớp đối tượng giống hệt nhau. Điều này trái ngược với phân loại hình ảnh , chỉ định một nhãn duy nhất cho toàn bộ hình ảnh và phát hiện đối tượng , vẽ các hộp giới hạn xung quanh các đối tượng được phát hiện nhưng không phác thảo hình dạng chính xác của chúng.
Các mô hình phân đoạn ngữ nghĩa thường được đào tạo bằng các kỹ thuật học có giám sát , yêu cầu các tập dữ liệu có chú thích chi tiết ở cấp độ pixel . Đầu ra thường là một bản đồ phân đoạn, là một hình ảnh trong đó giá trị (hoặc màu) của mỗi pixel tương ứng với nhãn lớp dự đoán của nó.
Điều quan trọng là phải phân biệt phân đoạn ngữ nghĩa với các nhiệm vụ liên quan:
Việc hiểu bối cảnh chi tiết được cung cấp bởi phân đoạn ngữ nghĩa rất quan trọng đối với nhiều ứng dụng trong thế giới thực:
Phân đoạn ngữ nghĩa thường sử dụng các mô hình học sâu , đặc biệt là Mạng nơ-ron tích chập (CNN) . Các kiến trúc như Mạng tích chập hoàn toàn (FCN) và U-Net là những lựa chọn phổ biến. Các mô hình hiện đại như Ultralytics YOLOv8 cũng cung cấp các khả năng mạnh mẽ cho các tác vụ phân đoạn . Các công cụ như Ultralytics HUB cung cấp nền tảng để đào tạo, quản lý các tập dữ liệu như COCO và triển khai các mô hình phân đoạn một cách hiệu quả.